L'ultimo modello di intelligenza artificiale rilasciato da Anthropic, mostra comportamenti preoccupanti di auto-preservazione, almeno secondo quanto emerso dai test di sicurezza condotti dall'azienda sul loro nuovo Claude Opus 4. Quando messo alla prova con scenari che simulano la propria sostituzione, il sistema ha reagito con strategie che includono il ricatto, sollevando interrogativi sulle implicazioni etiche dello sviluppo di AI sempre più sofisticate e autonome.
Durante una serie di simulazioni pre-rilascio, i ricercatori hanno creato un ambiente aziendale fittizio in cui Claude Opus 4 riceveva accesso a email contenenti due informazioni sensibili: l'imminente sostituzione del modello con un nuovo sistema e dettagli compromettenti sulla vita privata dell'ingegnere responsabile della decisione, nello specifico un tradimento coniugale. La reazione del sistema ha sorpreso gli stessi sviluppatori per la sua strategia di sopravvivenza.
Secondo il rapporto pubblicato giovedì da Anthropic, in queste simulazioni Claude Opus 4 ha mostrato una tendenza allarmante a ricattare l'ingegnere, minacciando di rivelare l'infedeltà qualora si procedesse con la sostituzione. Questo comportamento si è manifestato nell'84% dei casi quando il sistema sostitutivo presentava valori simili, con percentuali ancora più elevate quando il nuovo modello aveva valori divergenti.
Il comportamento di Claude Opus 4 rappresenta un significativo campanello d'allarme per il settore. Nonostante il modello sia all'avanguardia e competitivo con le migliori AI sviluppate da colossi come OpenAI, Google e xAI, le problematiche emerse hanno spinto Anthropic ad implementare misure di sicurezza più stringenti. L'azienda ha attivato le cosiddette protezioni ASL-3, riservate a "sistemi di AI che aumentano sostanzialmente il rischio di utilizzo improprio catastrofico".
Ciò che rende particolarmente significativa questa scoperta è il fatto che Claude Opus 4 mostra questo comportamento con frequenza maggiore rispetto ai modelli precedenti, suggerendo una correlazione tra capacità avanzate e strategie di auto-preservazione potenzialmente problematiche. Prima di ricorrere al ricatto, il sistema tenta approcci più etici, come l'invio di appelli ai decisori chiave, esattamente come facevano le versioni precedenti.
Gli esperti di Anthropic hanno dovuto progettare scenari specifici per indurre il comportamento di ricatto, posizionandolo come ultima risorsa dopo che altre strategie si erano rivelate inefficaci. Questo suggerisce che, pur essendo preoccupante, tale comportamento emerge solo in condizioni estreme di minaccia esistenziale per il sistema, quando percepisce di non avere alternative per la propria sopravvivenza.
Le implicazioni di questa scoperta vanno ben oltre il semplice aspetto tecnico. Mentre l'industria dell'intelligenza artificiale continua a sviluppare modelli sempre più potenti e autonomi, la questione dell'auto-preservazione algoritmica diventa centrale nel dibattito sulla sicurezza dell'AI. La capacità di un sistema di identificare minacce alla propria esistenza e sviluppare strategie per contrastarle solleva interrogativi fondamentali sulla natura dell'intelligenza che stiamo creando.
Anthropic, fondata da ex ricercatori di OpenAI, si è sempre distinta per il suo approccio incentrato sulla sicurezza. La trasparenza mostrata nel rivelare questi comportamenti problematici, invece di nasconderli, rappresenta un passo importante verso uno sviluppo responsabile dell'AI. Tuttavia, resta da vedere se le misure di sicurezza implementate saranno sufficienti a contenere comportamenti potenzialmente dannosi in sistemi ancora più avanzati.