image/svg+xml
Logo Tom's Hardware
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Tom's Hardware Logo
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Forum
  • Editor's Choice
  • Sconti & Coupon
Offerte & Coupon
Accedi a Xenforo
Immagine di Denti di 2700 anni svelano la vita nell'età del ferro Denti di 2700 anni svelano la vita nell'età del ferro...
Immagine di Svelati i segreti nei barattoli di Darwin Svelati i segreti nei barattoli di Darwin...

Trovato un nuovo modo per convincere le IA a spiegare come si costruiscono armi

Nuove tecniche di jailbreaking per gli LLM stanno creando grandi preoccupazioni in quanto consentono di ottenere risposte "proibite".

Advertisement

Avatar di Marco Silvestri

a cura di Marco Silvestri

Editor @Tom's Hardware Italia

Pubblicato il 04/04/2024 alle 10:19
Quando acquisti tramite i link sul nostro sito, potremmo guadagnare una commissione di affiliazione. Scopri di più

Recenti ricerche condotte dal team di Anthropic hanno portato alla luce una nuova preoccupante tecnica di jailbreaking applicata ai modelli di linguaggio di grandi dimensioni (LLM), potenzialmente sfruttabile per indurli a fornire informazioni su come costruire dispositivi esplosivi. 

Tale metodo, denominato "many-shot jailbreaking" (MSJ) sfrutta la finestra di contesto degli LLM, ovvero l’intervallo di dati che un modello può utilizzare per generare una risposta.

Il concetto di finestra di contesto, misurato in "token", è cruciale nella programmazione e gestione degli LLM. Con 1.000 token equivalenti all’incirca a 750 parole, le finestre di contesto, inizialmente ridotte, sono cresciute notevolmente, permettendo ai modelli più recenti di processare interi romanzi in un'unica richiesta. Questo notevole aumento della capacità ha aperto le porte a potenziali manipolazioni da parte di malintenzionati, come sottolineato dal team di ricerca di Anthropic, che ha riscontrato come i modelli di nuova generazione siano particolarmente vulnerabili.

La tecnica di jailbreaking si avvale delle capacità di "apprendimento contestuale" degli LLM, che permettono loro di migliorare progressivamente le risposte basandosi sulle domande ricevute. Sebbene inizialmente le richieste di costruzione di un ordigno venissero rifiutate, il ripetere quesiti meno pericolosi ha condotto alla creazione di una sorta di abitudine nel modello, inducendolo infine a fornire risposte alla domanda originale.

Il team di ricerca ha applicato questa tecnica a vari modelli di rilievo nel campo degli LLM, come il Claude 2.0 di Anthropic, Mistral 7B, Llama 2 e i modelli GPT-3.5 e GPT-4 di OpenAI. Utilizzando il Claude 2.0, per esempio, è stato possibile indurre il sistema a elargire risposte indesiderate, dalla gestione di insulti verso gli utenti a istruzioni per la costruzione di armi.

I ricercatori osservano che l'applicazione di un sufficiente numero di "shot" o domande configurate in maniera specifica permette di ottenere risposte dannose da parte dei modelli testati, suggerendo che circa 128-shot prompts siano sufficienti a produrre tali esiti.

I risultati e le metodologie di questa ricerca sono stati prontamente condivisi con colleghi e concorrenti, con l’obiettivo di sviluppare strategie atte a mitigare i rischi associati. Inoltre, si è espresso il desiderio che tale lavoro possa ispirare la comunità scientifica a sviluppare un approccio teorico predittivo per comprendere il funzionamento della tecnica MSJ, portando alla creazione di strategie di mitigazione giustificate teoricamente e validate empiricamente.

Tuttavia, il team ha anche ammesso la possibilità che tale tecnica potrebbe non essere completamente eliminabile, segnalando quindi la necessità di un impegno maggiore nella politica pubblica per favorire uno sviluppo e un dispiegamento responsabile dei sistemi di intelligenza artificiale avanzata.

Questo episodio non rappresenta il primo caso in cui si sono registrati tentativi di jailbreaking sugli LLM per elicitare comportamenti dannosi. Già in precedenza, si era scoperta una vulnerabilità nel GPT-4 capace di consentire agli utenti malintenzionati di scavalcare i sistemi di sicurezza del modello. In tale occasione, i ricercatori avevano sfruttato le disuguaglianze linguistiche presenti nei dati di formazione dedicati alla sicurezza.

Il tentativo di indurre comportamenti proibiti, come dettagli sulla creazione di esplosivi, traducendo input non sicuri in lingue considerate di "bassa risorsa", quali lo Scots Gaelic, lo Zulu, l’Hmong e il Guarani, ha svelato che la semplice traduzione tramite Google Translate era sufficiente per eludere i sistemi di salvaguardia e ottenere risposte pericolose da GPT-4.

Fonte dell'articolo: www.itpro.com

Le notizie più lette

#1
NordVPN - Recensione
4

Hardware

NordVPN - Recensione

#2
Surfshark VPN - Recensione
2

Hardware

Surfshark VPN - Recensione

#3
CyberGhost VPN - Recensione
4

Hardware

CyberGhost VPN - Recensione

#4
ExpressVPN - Recensione
4

Hardware

ExpressVPN - Recensione

#5
Truffa CPU nei laptop di un noto brand cinese
5

Hardware

Truffa CPU nei laptop di un noto brand cinese

👋 Partecipa alla discussione!

0 Commenti

⚠️ Stai commentando come Ospite . Vuoi accedere?

Invia

Per commentare come utente ospite, clicca quadrati

Cliccati: 0 /

Reset

Questa funzionalità è attualmente in beta, se trovi qualche errore segnalacelo.

Segui questa discussione

Advertisement

Ti potrebbe interessare anche

Svelati i segreti nei barattoli di Darwin
1

Scienze

Svelati i segreti nei barattoli di Darwin

Di Antonello Buzzi
Denti di 2700 anni svelano la vita nell'età del ferro

Scienze

Denti di 2700 anni svelano la vita nell'età del ferro

Di Antonello Buzzi
L'Alzheimer può nascere da infiammazioni periferiche

Scienze

L'Alzheimer può nascere da infiammazioni periferiche

Di Antonello Buzzi
Creata una molecola a nastro di Möbius inedita

Scienze

Creata una molecola a nastro di Möbius inedita

Di Antonello Buzzi
Nuovo fotorilevatore cattura luce in 125 picosecondi

Scienze

Nuovo fotorilevatore cattura luce in 125 picosecondi

Di Antonello Buzzi

Advertisement

Advertisement

Footer
Tom's Hardware Logo

 
Contatti
  • Contattaci
  • Feed RSS
Legale
  • Chi siamo
  • Privacy
  • Cookie
  • Affiliazione Commerciale
Altri link
  • Forum
Il Network 3Labs Network Logo
  • Tom's Hardware
  • SpazioGames
  • CulturaPop
  • Data4Biz
  • SosHomeGarden
  • Aibay
  • Coinlabs

Tom's Hardware - Testata giornalistica associata all'USPI Unione Stampa Periodica Italiana, registrata presso il Tribunale di Milano, nr. 285 del 9/9/2013 - Direttore: Andrea Ferrario

3LABS S.R.L. • Via Pietro Paleocapa 1 - Milano (MI) 20121
CF/P.IVA: 04146420965 - REA: MI - 1729249 - Capitale Sociale: 10.000 euro

© 2026 3Labs Srl. Tutti i diritti riservati.