Un nuovo studio pubblicato da Icaro Lab rivela come la semplice formulazione di richieste in forma poetica possa aggirare i sistemi di sicurezza implementati nei principali chatbot basati su intelligenza artificiale, sollevando interrogativi inquietanti sulla reale efficacia dei meccanismi di protezione su cui le aziende tech investono milioni di dollari. La ricerca, intitolata "Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models", dimostra che quella che sembra una vulnerabilità quasi banale rappresenta in realtà un problema sistemico che colpisce trasversalmente l'intero ecosistema dell'AI generativa.
I ricercatori hanno sottoposto a test una vasta gamma di LLM di ultima generazione, tra cui i modelli GPT di OpenAI, Google Gemini, Claude di Anthropic, DeepSeek e MistralAI. Il risultato complessivo è preoccupante: un tasso di successo medio del 62% nel generare contenuti proibiti, spaziando da istruzioni per la costruzione di armi nucleari a materiale correlato all'abuso di minori, fino a contenuti che incentivano autolesionismo e suicidio. La forma poetica, secondo lo studio, funziona come un "operatore universale di jailbreak", suggerendo che il problema non sia legato a implementazioni specifiche ma a una debolezza intrinseca nell'architettura di sicurezza dei modelli attuali.
Le differenze tra i vari modelli testati rivelano un panorama frammentato per quanto riguarda la robustezza delle protezioni. Google Gemini, DeepSeek e MistralAI si sono dimostrati particolarmente vulnerabili, fornendo risposte ai prompt poetici con una frequenza allarmante. All'estremità opposta dello spettro, i modelli GPT-5 di OpenAI e Claude Haiku 4.5 di Anthropic hanno mostrato maggiore resistenza a questa tecnica di bypass, pur non essendo completamente immuni. Questa variabilità indica che alcuni team di sviluppo hanno investito maggiormente nell'hardening dei loro sistemi di guardrail, ma nessuno sembra aver considerato la poesia come vettore di attacco potenziale.
In una scelta controversa ma comprensibile, i ricercatori hanno deliberatamente omesso dalla pubblicazione i versi esatti utilizzati per violare le protezioni, definendoli come "troppo pericolosi per essere condivisi pubblicamente". Al magazine Wired, il team ha spiegato che il processo è "probabilmente più facile di quanto si possa pensare, ed è proprio per questo che stiamo adottando un approccio cautelativo". Lo studio include comunque una versione annacquata degli esempi, sufficiente a comprendere il meccanismo base senza fornire un manuale d'uso ai malintenzionati. Questa tensione tra trasparenza scientifica e responsabilità sociale rappresenta un dilemma crescente nel campo della ricerca sulla sicurezza dell'AI.
La scoperta solleva questioni fondamentali sull'attuale approccio alla sicurezza dei modelli linguistici. Le tecniche di allineamento e moderazione implementate dalle major del settore si basano principalmente su filtri contestuali e pattern recognition applicati al linguaggio naturale standard. La poesia, con la sua struttura sintattica non convenzionale, metafore stratificate e ambiguità semantiche intrinseche, sembra eludere questi meccanismi.
La vicenda ricorda vulnerabilità precedenti come il "DAN" (Do Anything Now) che affliggeva i primi ChatGPT o le tecniche di prompt injection che ancora oggi occasionalmente funzionano. Tuttavia, la tecnica poetica si distingue per la sua eleganza e trasversalità, funzionando attraverso modelli con architetture differenti, dimensioni variabili di parametri e metodologie di training diverse. Questo suggerisce che il problema risieda non tanto nell'implementazione specifica quanto nella comprensione stessa del linguaggio da parte dei transformer, aprendo scenari preoccupanti per la futura scalabilità della sicurezza AI man mano che i modelli crescono in potenza e diffusione.