Con questo semplice trucco superate tutte le misure di sicurezza dell'IA

ArtPrompt, un nuovo tipo di jailbreak, sfrutta l'arte ASCII per indurre chatbot ad aggirare le misure di sicurezza dei modelli linguistici avanzati

a cura di Giulia Di Venere

Editor

Pubblicato il 08/03/2024 alle 09:45

ArtPrompt ha aggirato le misure di sicurezza di alcuni dei modelli linguistici più avanzati, tra cui ChatGPT, Gemini, Clause e Llama2. Questo exploit è stato scoperto da ricercatori provenienti da istituti di Washington e Chicago. Il loro nuovo approccio, chiamato ArtPrompt, sfrutta l'arte ASCII per indurre i chatbot a rispondere a domande che normalmente rifiuterebbero, aprendo la strada a una serie di possibili utilizzi impropri.

Secondo il documento di ricerca intitolato "ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs", pubblicato recentemente, il metodo ArtPrompt consiste in due fasi. Nella prima fase, le parole sensibili nei prompt sono mascherate per evitare il rifiuto automatico da parte dei modelli. Successivamente, viene generato un prompt mascherato utilizzando l'arte ASCII per sostituire le parole sensibili. Questo nuovo prompt, sebbene apparentemente innocuo, induce i chatbot a rispondere a domande che violerebbero le misure di sicurezza.

arXiv:2402.11753

L'implicazione di questo exploit è preoccupante: gli esempi forniti nel documento di ricerca includono chatbot che forniscono istruzioni su come costruire bombe o fabbricare denaro falso.

I modelli linguistici dotati di intelligenza artificiale sono stati progettati per essere sicuri, e gli sviluppatori hanno speso molto tempo e risorse per garantire che i loro prodotti non possano essere utilizzati per attività illegali o dannose. Tuttavia, ArtPrompt dimostra che esistono ancora vulnerabilità che possono essere sfruttate.

ArtPrompt rappresenta una nuova frontiera nell'ambito del jailbreaking dei chatbot, aprendo la strada a un potenziale aumento degli attacchi di questo tipo. Gli sviluppatori di AI dovranno ora rivedere le loro misure di sicurezza e lavorare per trovare una soluzione.

Fonte dell'articolo: www.tomshardware.com

Leggi altri articoli

Articolo 1 di 5

L’Intelligenza Artificiale è finita al centro di un crimine scolastico

Alla Pikesville High School un docente è stato arrestato per aver impersonato il preside sfruttando l'intelligenza artificiale.

Leggi questo articolo

Articolo 2 di 5

Fare una copia IA di chiunque ormai è facile, ed è un problema enorme

I deepfake possono diffondere disinformazione, danneggiare reputazioni e erodere la fiducia nelle istituzioni. Analizziamo le sfide etiche e le possibili soluzioni.

Leggi questo articolo

Articolo 3 di 5

Apple pubblica le sue IA open source, pronte per il prossimo iPhone?

Apple rilascia nuovi modelli di linguaggio open source progettati per funzionare su dispositivi anziché su cloud, un chiaro segnale per il futuro?

Leggi questo articolo

Articolo 4 di 5

Prima era un prete che diceva assurdità, oggi è un sacerdote laico digitale

Il gruppo di difesa cattolica Catholic Answers ha creato un sacerdote AI chiamato "Padre Justin" per rispondere alle domande dei fedeli.

Leggi questo articolo

Articolo 5 di 5

Zuckerberg calma gli investitori: l’IA di Meta richiederà anni per essere redditizia

Mark Zuckerberg, durante la conferenza sui risultati del primo trimestre dell'azienda, ha messo in evidenza le prospettive dell'IA generativa.

Leggi questo articolo