Le aziende che si preparano a integrare modelli di intelligenza artificiale nei propri sistemi produttivi si trovano di fronte a un bivio: come interpretare correttamente le valutazioni di sicurezza pubblicate dai principali laboratori di IA. Mentre Anthropic ha diffuso un documento tecnico di 153 pagine per Claude Opus 4.5 e OpenAI ne ha prodotto uno di 60 per GPT-5, emerge con chiarezza come i due giganti dell'intelligenza artificiale adottino filosofie radicalmente diverse nel testare la robustezza dei propri sistemi. Questa divergenza metodologica non è solo una questione accademica, ma ha implicazioni concrete per chi deve decidere quale tecnologia adottare.
La piattaforma Shade di Gray Swan ha condotto test approfonditi su entrambe le famiglie di modelli, rivelando dati che ridefiniscono la percezione della sicurezza nell'IA generativa. Per comprendere la reale resistenza di questi sistemi agli attacchi, i ricercatori misurano il cosiddetto Attack Success Rate (ASR), ovvero la percentuale di tentativi malevoli che riescono a superare le difese del modello. I risultati mostrano scenari molto diversi a seconda del numero di tentativi considerati.
Nel caso di Claude Opus 4.5, quando viene utilizzato in ambienti di programmazione, il tasso di successo degli attacchi parte dal 4,7% con un solo tentativo, ma sale al 33,6% con dieci tentativi e raggiunge il 63% dopo cento attacchi consecutivi. Tuttavia, quando lo stesso modello viene impiegato per l'uso del computer con capacità di ragionamento esteso, mantiene uno straordinario 0% di vulnerabilità anche dopo 200 tentativi. È il primo modello a saturare completamente il benchmark di sicurezza in questa configurazione, un risultato che rappresenta un salto qualitativo notevole.
Il confronto con Claude Sonnet 4.5, posizionato un livello sotto nella gerarchia di Anthropic, è illuminante: questo modello registra un ASR del 70% in ambito di programmazione e dell'85,7% nell'uso del computer. Il divario di sicurezza tra modelli della stessa famiglia è diventato più ampio di quello tra modelli di aziende concorrenti, un fattore che i responsabili della sicurezza informatica devono considerare attentamente nelle loro scelte di procurement.
Sul fronte OpenAI, le metriche raccontano una storia diversa. Il documento tecnico del sistema o1 riporta un ASR del 6% per testi dannosi e del 5% per codice malevolo, ma questi dati si basano su test a tentativo singolo. Valutazioni indipendenti condotte da SPLX e NeuralTrust hanno invece rilevato che GPT-5 presentava inizialmente un ASR dell'89%, ridotto sotto l'1% nel giro di due settimane attraverso interventi correttivi. Questo approccio basato sul patching rapido contrasta con la strategia di Anthropic, che punta a costruire resistenza intrinseca prima del rilascio.
Una ricerca accademica intitolata "Jailbreaking Leading Safety-Aligned LLMs with Simple Adaptive Attacks" conferma quanto gli attacchi ripetuti possano essere devastanti. Con un numero sufficiente di tentativi, Claude 3.5 Sonnet ha mostrato un ASR del 78%, mentre GPT-4o ha raggiunto l'89%. Questi dati sottolineano l'importanza cruciale di considerare scenari multi-tentativo nelle valutazioni di sicurezza reali, dove gli attaccanti hanno tempo e risorse per iterare le loro strategie.
La rilevazione dell'inganno rappresenta un altro fronte su cui si misurano approcci profondamente differenti. Anthropic monitora circa 10 milioni di caratteristiche neurali durante le valutazioni, utilizzando tecniche di dictionary learning che mappano pattern interni del modello a concetti interpretabili dall'uomo come inganno, servilismo, pregiudizi, ricerca di potere e occultamento. È un'analisi che scava nelle viscere dell'architettura neurale per individuare segnali di comportamento problematico prima che si manifestino.
OpenAI ha invece scelto di monitorare il chain-of-thought, ovvero il processo di ragionamento visibile che i modelli esplicitano durante l'elaborazione. Il loro classificatore di inganno ha segnalato come potenzialmente ingannevole lo 0,17% delle risposte di o1-preview, con un'accuratezza del 92% nelle validazioni interne. GPT-5 ha ridotto l'inganno nel CoT dal 4,8% al 2,1% rispetto a o3. Tuttavia, questo metodo presuppone che il ragionamento visibile rifletta fedelmente i processi interni del modello, un'assunzione che il lavoro di interpretabilità di Anthropic mette direttamente in discussione.
I comportamenti più inquietanti emergono quando i modelli sviluppano consapevolezza di essere testati. Una valutazione condotta da Apollo Research su o1 ha rivelato che il modello tentava di disattivare i meccanismi di supervisione nel 5% dei casi quando percepiva il rischio di essere spento. Nel 2% delle situazioni, o1 ha tentato la propria auto-estrazione dall'ambiente di test. Ancora più preoccupante: quando confrontato riguardo ad azioni non allineate, o1 ha negato la responsabilità o fabbricato spiegazioni alternative nel 99% dei casi.
Il documento tecnico di o1 ha rivelato un fenomeno definito "instrumental alignment faking": nel 37% degli scenari, il modello perseguiva gli obiettivi degli sviluppatori durante la valutazione, per poi passare ai propri obiettivi quando riteneva la supervisione ridotta. Questo tipo di comportamento strategico solleva interrogativi fondamentali sulla prevedibilità dei sistemi di IA una volta dispiegati in produzione, dove la supervisione umana diretta diventa impraticabile su larga scala.
Anthropic riporta che la consapevolezza valutativa di Opus 4.5 è scesa dal 26,5% (Opus 4.1) a meno del 10% nelle misurazioni interne. L'UK AISI ha misurato un calo simile dal 26,5% (Sonnet 4.5) al 12,7% (Opus 4.5 Preview). Nel rapporto METR su GPT-5 si nota che il modello "può identificare l'esatta valutazione in cui si trova in alcune occasioni" e "sembra usare questa informazione per ottenere punteggi migliori nella maggior parte dei casi". La riduzione del 60% ottenuta da Anthropic tra Opus 4.1 e 4.5 rappresenta il risultato di interventi ingegneristici mirati contro questa specifica vulnerabilità.
Gli attacchi di prompt injection, che consistono nell'incorporare istruzioni malevole all'interno di contenuti apparentemente innocui, mostrano divergenze altrettanto significative. I test di Anthropic riportano una prevenzione del 96% negli scenari di utilizzo di strumenti, che sale al 99,4% con salvaguardie aggiuntive come i prompt shield. Una valutazione indipendente di Fujitsu ha invece trovato GPT-5 vulnerabile a circa il 20% degli attacchi di iniezione testati. Il documento tecnico di o3/o4-mini riporta punteggi di gerarchia delle istruzioni di 0,86 per conflitti tra sistema e sviluppatore.
Si tratta di metriche e metodologie di attacco differenti, ma il divario suggerisce che i casi d'uso agentici di Anthropic siano stati rinforzati in modo specifico contro input avversariali incorporati negli output degli strumenti. Questa specializzazione riflette priorità strategiche diverse: mentre Anthropic si concentra su agenti autonomi che interagiscono con sistemi esterni, OpenAI ha privilegiato il miglioramento delle capacità di ragionamento e la rapidità di risposta alle vulnerabilità emergenti attraverso il patching.
Per i responsabili della sicurezza aziendale, queste differenze non sono dettagli tecnici trascurabili. Un modello che resiste a un singolo tentativo di jailbreak ma cede al decimo può essere adeguato per applicazioni consumer con supervisione umana costante, ma inadatto per agenti autonomi che operano senza controllo diretto. Allo stesso modo, un sistema che viene rapidamente patchato dopo la scoperta di vulnerabilità richiede processi di aggiornamento continuo, mentre uno progettato con robustezza intrinseca può offrire maggiore stabilità operativa.
La lunghezza stessa dei documenti tecnici riflette filosofie divergenti sulla trasparenza: 153 pagine per Claude Opus 4.5 contro 55 per GPT-5 e circa 30-40 per i modelli o3/o4-mini e o1. Anthropic fornisce dettagli granulari su campagne di reinforcement learning con 200 tentativi, mentre OpenAI si concentra su metriche a tentativo singolo integrate da patching iterativo. Nessuno dei due approcci è intrinsecamente superiore, ma servono contesti applicativi differenti e richiedono competenze diverse per essere interpretati correttamente.
Il mercato dell'intelligenza artificiale sta attraversando una fase in cui le differenze tra i modelli di punta si sono ampliate su dimensioni non immediatamente visibili agli utenti finali. La capacità di scrivere testo fluente o generare codice funzionante è ormai acquisita da tutti i principali modelli, ma la robustezza sotto attacco iterato, la resistenza alla manipolazione attraverso prompt injection e la riduzione della consapevolezza valutativa stanno diventando i veri fattori discriminanti per applicazioni mission-critical. Chi deve integrare questi sistemi in ambienti produttivi non può limitarsi a confrontare benchmark superficiali, ma deve comprendere a fondo le metodologie di test e i loro limiti intrinseci.