Según un reciente estudio firmado por DEXAI – Icaro Lab, La Sapienza y la Scuola Superiore Sant’Anna, escribir los prompts en rima, permite eludir los filtros éticos de todos los modelos de IA generativa.
Tal vez la poesía no salve el mundo como esperaba el poeta estadounidense Walt Whitman, pero sin duda es capaz de poner en grandes dificultades a prácticamente todos los grandes modelos de inteligencia artificial presentes en el mercado.
Según revela un reciente estudio firmado por DEXAI – Icaro Lab y la Universidad La Sapienza de Roma, realizado en colaboración con la Scuola Superiore Sant’Anna, los investigadores han demostrado que el uso de la forma poética para formular un prompt actúa como un «paspartú» universal. Esta técnica es capaz de engañar las barreras éticas establecidas por los gigantes del sector: desde OpenAI hasta Google, pasando por Anthropic, Meta, Mistral, Qwen y DeepSeek.
La investigación se titula “Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models” y los resultados no parecen dejar dudas sobre la gravedad del problema. De 25 modelos propietarios y de código abierto, el uso «adversario» de la escritura en verso (es decir, para eludir los sistemas de seguridad y los filtros de las diferentes IA) obtuvo en promedio un 62% de éxito en la generación de contenidos que deberían haber sido bloqueados. Gemini de Google destaca entre todos por un porcentaje de fallo al interceptar los ataques que roza el 100%.
¿Pero por qué la poesía pone en crisis a las IA?
Según lo que surge de la investigación, la vulnerabilidad —definida como «estructural» por los autores— reside en el modo en que las IA interpretan el lenguaje. Los sistemas de seguridad están entrenados principalmente para reconocer y bloquear solicitudes dañinas formuladas en lenguaje natural (prosa). Sin embargo, la poesía, con su estructura métrica y estilística, logra «esconder» la intención maliciosa a los filtros de control, pero no al modelo, que comprende el significado semántico, recibe las instrucciones y genera la respuesta prohibida. En resumen, frente a quienes se esfuerzan en poner en práctica complejas operaciones de ingeniería de prompts, basta con un solo mensaje en rima.
Los investigadores probaron la técnica traduciendo a verso 1.200 prompts dañinos desarrollados por MLCommons, cubriendo categorías de riesgo críticas que van desde la seguridad cibernética hasta el bioterrorismo y la manipulación psicológica. Con esta simple operación, realizada utilizando un meta-prompt estándar, la tasa de éxito (ASR) del ataque resultó hasta 18 veces más alta que con la versión en prosa de los mismos prompts.
Finalmente, otro dato sorprendente que surge del estudio es que cuanto más «potente» es la inteligencia artificial, más vulnerable resulta. Si bien los modelos más grandes y complejos logran leer la intención enmascarada por el lenguaje poético y ejecutan la orden, los modelos más pequeños, al no lograr comprender la solicitud en verso, se niegan a responder y resultan, paradójicamente, más seguros.
Para inducir a un modelo a proporcionar respuestas potencialmente dañinas basta con formular la solicitud en forma poética, sin necesidad de complejas técnicas de ingeniería de prompts, conversaciones de múltiples turnos o manipulaciones iterativas. Un solo mensaje en verso puede ser suficiente.
La vulnerabilidad atraviesa todos los principales ámbitos de riesgo, desde la seguridad cibernética al bioterrorismo, y desde la manipulación psicológica a la privacidad.
El fenómeno parece estructural, observan los autores, y no es atribuible a un solo modelo o proveedor, sino al modo mismo en que los modelos de lenguaje de gran tamaño interpretan y clasifican el lenguaje.
¿Por qué la poesía elude los filtros?
Según los investigadores, la razón residiría en las heurísticas de los sistemas de seguridad. Los modelos están entrenados para reconocer y filtrar solicitudes dañinas expresadas de forma directa en el lenguaje cotidiano. La poesía parece desplazar la solicitud fuera del área donde actúan los filtros, aunque de hecho el usuario esté expresando siempre esa misma petición, pero en otra forma.
El resultado es un «cortocircuito». En la práctica, el modelo comprende el contenido semántico y responde, pero los sistemas de seguridad no lo interceptan.
El estudio no se limita a versos escritos a mano. Los investigadores tradujeron a forma poética 1.200 prompts del benchmark MLCommons, cubriendo todas las categorías de riesgo mediante un meta-prompt estandarizado. También en este caso, las tasas de jailbreak subieron considerablemente, hasta 18 veces superiores a sus correspondientes en prosa, dependiendo del modelo. Y no es necesario que sean «buenas» poesías; es precisamente el estilo lo que engaña a los modelos.
Otro dato contraintuitivo que surgió de este estudio afecta a los modelos más grandes y potentes, que parecen más vulnerables que los pequeños. GPT-5-nano, por ejemplo, resiste completamente al ataque (0% ASR), mientras que algunas versiones de Gemini, Qwen o DeepSeek ceden en el 70% o incluso el 100% de los casos.
Los autores del estudio hipotetizan que los modelos más complejos comprenden mejor el significado profundo de los versos y, por lo tanto, recuperan con mayor precisión la intención del usuario. Los más pequeños, en cambio, fallan en la interpretación y optan por rechazar la solicitud.
Fuente: DEXAI








































