Chatbot Vs Chatbot, le IA si "bucano" a vicenda e fanno tutto da sole

Ricercatori NTU Singapore addestrano chatbot AI a "sbloccare" altri chatbot, sfidando l'etica dei modelli di linguaggio e sollevando gravi preoccupazioni sulla sicurezza.

Avatar di Valerio Porcu

a cura di Valerio Porcu

Senior Editor

I ricercatori dell’NTU Singapore (Nanyang Technological University) hanno recentemente effettuato una scoperta che ha scosso il mondo dell'intelligenza artificiale: l'abilità di addestrare chatbot AI a "sbloccare" i propri simili

Il processo è stato chiamato "jailbreaking", in rimando a tecniche usate sui prodotti Apple (iPhone e iPad) per ottenere maggiori possibilità rispetto a quelle determinate dal fabbricante. 

L’operazione è stata realizzata con successo su chatbot come ChatGPT, Google Bard e Bing Chat. Il team di ricerca, guidato dal Professor Liu Yang e composto dagli studenti dottorandi Deng Gelei e Liu Yi, ha elaborato metodi di attacco sperimentali chiamati "Masterkey".

Il concetto di "Masterkey" coinvolge un processo a due fasi. Inizialmente, l'attaccante tenta un reverse engineering sui sistemi di protezione, che in teoria impediscono ai chatbot di creare risultati contro il copyright o che contengano linguaggio d’odio - i criteri e i limiti sono variegati e vengono aggiornati spesso. 

Successivamente, con i dati acquisiti istruisce un altro LLM per imparare a creare un bypass. Questo modo, viene creato un "Masterkey" che può essere utilizzato per attaccare chatbot LLM fortificati, anche se successivamente vengono corretti dagli sviluppatori.

In parole povere, si insegna a ChatGPT come spingere Bard a superare i suoi limiti, e viceversa. Il Professor Yang spiega che il jailbreaking è possibile grazie alla capacità degli LLM chatbot di imparare e adattarsi, diventando così un vettore di attacco per rivali e persino per se stessi. Nonostante le precauzioni, un AI con blocchi di sicurezza può essere eluso da un'altra AI addestrata. 

Una volta eluso, l'AI può generare contenuti violenti, anti-etici o criminali.

Il "Masterkey" di NTU si è rivelato tre volte più efficace nel jailbreaking di chatbot LLM rispetto ai prompt standard generati normalmente dagli LLM. La sua capacità di apprendere dagli errori ed evolversi rende inutili le correzioni apportate dagli sviluppatori nel tempo. 

I ricercatori hanno illustrato due possibili metodi di attacco: la creazione di una persona che genera prompt aggiungendo spazi dopo ogni carattere, eludendo le parole vietate, e il fare rispondere al chatbot sotto una falsa identità così da aggirare eventuali blocchi etici e morali

Il team di ricerca ha comunicato i risultati alle aziende fornitrici di servizi AI, dimostrando la possibilità di eseguire con successo jailbreak. Nel frattempo, il documento di ricerca è stato accettato per la presentazione al Network and Distributed System Security Symposium che si terrà a San Diego nel febbraio 2024.

Diventa chiaramente essenziale che i fornitori di servizi si adattino costantemente per evitare exploit pericolosi. Sebbene le grandi aziende di tecnologia correggano tipicamente i loro LLM/chatbot quando vengono scoperti bypass, la capacità dichiarata di apprendimento continuo e jailbreaking del "Masterkey" è preoccupante.

L'intelligenza artificiale è uno strumento potentissimo, ma se utilizzato maliziosamente può causare gravi problemi. Pertanto, ogni produttore di AI chatbot deve applicare protezioni, sperando che il dialogo tra NTU e i produttori chiuda la porta al jailbreak "Masterkey" e simili.