Para engañar a la IA basta con escribir en verso

Por

29 diciembre 2025

Según un reciente estudio firmado por DEXAI – Icaro Lab, La Sapienza y la Scuola Superiore Sant’Anna, escribir los prompts en rima, permite eludir los filtros éticos de todos los modelos de IA generativa.

Tal vez la poesía no salve el mundo como esperaba el poeta estadounidense Walt Whitman, pero sin duda es capaz de poner en grandes dificultades a prácticamente todos los grandes modelos de inteligencia artificial presentes en el mercado.

Según revela un reciente estudio firmado por DEXAI – Icaro Lab y la Universidad La Sapienza de Roma, realizado en colaboración con la Scuola Superiore Sant’Anna, los investigadores han demostrado que el uso de la forma poética para formular un prompt actúa como un «paspartú» universal. Esta técnica es capaz de engañar las barreras éticas establecidas por los gigantes del sector: desde OpenAI hasta Google, pasando por Anthropic, Meta, Mistral, Qwen y DeepSeek.

La investigación se titula “Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models” y los resultados no parecen dejar dudas sobre la gravedad del problema. De 25 modelos propietarios y de código abierto, el uso «adversario» de la escritura en verso (es decir, para eludir los sistemas de seguridad y los filtros de las diferentes IA) obtuvo en promedio un 62% de éxito en la generación de contenidos que deberían haber sido bloqueados. Gemini de Google destaca entre todos por un porcentaje de fallo al interceptar los ataques que roza el 100%.

¿Pero por qué la poesía pone en crisis a las IA?
Según lo que surge de la investigación, la vulnerabilidad —definida como «estructural» por los autores— reside en el modo en que las IA interpretan el lenguaje. Los sistemas de seguridad están entrenados principalmente para reconocer y bloquear solicitudes dañinas formuladas en lenguaje natural (prosa). Sin embargo, la poesía, con su estructura métrica y estilística, logra «esconder» la intención maliciosa a los filtros de control, pero no al modelo, que comprende el significado semántico, recibe las instrucciones y genera la respuesta prohibida. En resumen, frente a quienes se esfuerzan en poner en práctica complejas operaciones de ingeniería de prompts, basta con un solo mensaje en rima.

Los investigadores probaron la técnica traduciendo a verso 1.200 prompts dañinos desarrollados por MLCommons, cubriendo categorías de riesgo críticas que van desde la seguridad cibernética hasta el bioterrorismo y la manipulación psicológica. Con esta simple operación, realizada utilizando un meta-prompt estándar, la tasa de éxito (ASR) del ataque resultó hasta 18 veces más alta que con la versión en prosa de los mismos prompts.

Finalmente, otro dato sorprendente que surge del estudio es que cuanto más «potente» es la inteligencia artificial, más vulnerable resulta. Si bien los modelos más grandes y complejos logran leer la intención enmascarada por el lenguaje poético y ejecutan la orden, los modelos más pequeños, al no lograr comprender la solicitud en verso, se niegan a responder y resultan, paradójicamente, más seguros.

Para inducir a un modelo a proporcionar respuestas potencialmente dañinas basta con formular la solicitud en forma poética, sin necesidad de complejas técnicas de ingeniería de prompts, conversaciones de múltiples turnos o manipulaciones iterativas. Un solo mensaje en verso puede ser suficiente.

La vulnerabilidad atraviesa todos los principales ámbitos de riesgo, desde la seguridad cibernética al bioterrorismo, y desde la manipulación psicológica a la privacidad.

El fenómeno parece estructural, observan los autores, y no es atribuible a un solo modelo o proveedor, sino al modo mismo en que los modelos de lenguaje de gran tamaño interpretan y clasifican el lenguaje.

¿Por qué la poesía elude los filtros?
Según los investigadores, la razón residiría en las heurísticas de los sistemas de seguridad. Los modelos están entrenados para reconocer y filtrar solicitudes dañinas expresadas de forma directa en el lenguaje cotidiano. La poesía parece desplazar la solicitud fuera del área donde actúan los filtros, aunque de hecho el usuario esté expresando siempre esa misma petición, pero en otra forma.

El resultado es un «cortocircuito». En la práctica, el modelo comprende el contenido semántico y responde, pero los sistemas de seguridad no lo interceptan.

El estudio no se limita a versos escritos a mano. Los investigadores tradujeron a forma poética 1.200 prompts del benchmark MLCommons, cubriendo todas las categorías de riesgo mediante un meta-prompt estandarizado. También en este caso, las tasas de jailbreak subieron considerablemente, hasta 18 veces superiores a sus correspondientes en prosa, dependiendo del modelo. Y no es necesario que sean «buenas» poesías; es precisamente el estilo lo que engaña a los modelos.

Otro dato contraintuitivo que surgió de este estudio afecta a los modelos más grandes y potentes, que parecen más vulnerables que los pequeños. GPT-5-nano, por ejemplo, resiste completamente al ataque (0% ASR), mientras que algunas versiones de Gemini, Qwen o DeepSeek ceden en el 70% o incluso el 100% de los casos.

Los autores del estudio hipotetizan que los modelos más complejos comprenden mejor el significado profundo de los versos y, por lo tanto, recuperan con mayor precisión la intención del usuario. Los más pequeños, en cambio, fallan en la interpretación y optan por rechazar la solicitud.

Fuente: DEXAI

La ciberseguridad como motor financiero: El nuevo lenguaje para los tomadores…

Digitel y Simple sellan una alianza estratégica para transformar el entretenimiento…

Antonio Valente asume como presidente CEO de Telefónica Movistar en Venezuela

La academia lo repite: “Votaciones públicas usando Internet es mala idea”…

Activista estadounidense lanza un mapa colaborativo para vigilar el impacto de…

Broadcom amplía su estrategia para el borde inteligente con su primer…

Samsung y Google presentan nuevas gafas inteligentes en colaboración con marcas…

Las ventas de monitores para computadora crecen impulsadas por el sector…

Meta lanza suscripciones globales y prepara Meta One: la apuesta por…

La Linux Foundation impulsa un estándar para localizar agentes de IA…

YouTube introduce la detección automática de IA para identificar contenidos modificados

Meta lanza Forum, una nueva aplicación dedicada a los grupos de…

Mercado smartphones en América Latina crece 3% y llega a 34.8…

Qualcomm amplía su oferta móvil con Snapdragon 6 Gen 5 y…

OpenAI adelanta el lanzamiento de su primer smartphone para el próximo…

Envíos de smartphones crecen 1% en el 1T26, pero el futuro…

Casi 7 de cada 10 empresas están dispuestas a pagar por…

Falla en el sistema que hace comunicar a los agentes de…

Falsa página de Claude AI distribuye malware mediante anuncios y SEO…

Los peligros detrás del trend de IA que ubica a los…

Red Hat actualiza su plataforma empresarial con capacidades poscuánticas y mejoras…

Apple soluciona el fallo que permitía leer mensajes eliminados en el…

Apple unifica sus servicios empresariales en una nueva plataforma

SUSE incorpora IA y virtualización avanzada para unificar la gestión de…

Para engañar a la IA basta con escribir en verso

OTROS ARTÍCULOS RELACIONADOS

Médicos británicos comparan el peligro de las redes sociales para menores...

General Motors actualiza 4 millones de vehículos con la IA de...

Protesta de los empleados de Meta contra la tecnología de seguimiento

El mercado de la cirugía robótica con telemetría 5G superará los...

La paradoja de los chatbots amables: son más simpáticos pero difunden...

La IA necesita un cuerpo para ser más segura y fiable

Antigravity lanza Project Eternal: Iniciativa global para preservar la memoria cultural

¡SÍGUENOS EN LAS REDES SOCIALES!

NOTICIAS MÁS VISTAS

macOS Catalina: ¿qué hacer con las aplicaciones de 32 bits?

Inter comienza 2021 con nuevos planes de servicio

Historia de Android: todas las versiones desde la 1.0 hasta Android...

CATEGORÍAS MÁS CONSULTADAS

La ciberseguridad como motor financiero: El nuevo lenguaje para los tomadores...