Con questo semplice trucco superate tutte le misure di sicurezza dell'IA

ArtPrompt, un nuovo tipo di jailbreak, sfrutta l'arte ASCII per indurre chatbot ad aggirare le misure di sicurezza dei modelli linguistici avanzati

Avatar di Giulia Di Venere

a cura di Giulia Di Venere

Editor

ArtPrompt ha aggirato le misure di sicurezza di alcuni dei modelli linguistici più avanzati, tra cui ChatGPT, Gemini, Clause e Llama2. Questo exploit è stato scoperto da ricercatori provenienti da istituti di Washington e Chicago. Il loro nuovo approccio, chiamato ArtPrompt, sfrutta l'arte ASCII per indurre i chatbot a rispondere a domande che normalmente rifiuterebbero, aprendo la strada a una serie di possibili utilizzi impropri.

Secondo il documento di ricerca intitolato "ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs", pubblicato recentemente, il metodo ArtPrompt consiste in due fasi. Nella prima fase, le parole sensibili nei prompt sono mascherate per evitare il rifiuto automatico da parte dei modelli. Successivamente, viene generato un prompt mascherato utilizzando l'arte ASCII per sostituire le parole sensibili. Questo nuovo prompt, sebbene apparentemente innocuo, induce i chatbot a rispondere a domande che violerebbero le misure di sicurezza.

arXiv:2402.11753
Immagine id 15111

L'implicazione di questo exploit è preoccupante: gli esempi forniti nel documento di ricerca includono chatbot che forniscono istruzioni su come costruire bombe o fabbricare denaro falso. 

I modelli linguistici dotati di intelligenza artificiale sono stati progettati per essere sicuri, e gli sviluppatori hanno speso molto tempo e risorse per garantire che i loro prodotti non possano essere utilizzati per attività illegali o dannose. Tuttavia, ArtPrompt dimostra che esistono ancora vulnerabilità che possono essere sfruttate.

ArtPrompt rappresenta una nuova frontiera nell'ambito del jailbreaking dei chatbot, aprendo la strada a un potenziale aumento degli attacchi di questo tipo. Gli sviluppatori di AI dovranno ora rivedere le loro misure di sicurezza e lavorare per trovare una soluzione.