Il dibattito sull'efficacia reale dell'intelligenza artificiale nel campo della cybersecurity si è acceso con rinnovata intensità dopo che Anthropic ha dichiarato di aver individuato quella che definisce la prima campagna di cyber-spionaggio orchestrata da AI. Secondo il report dell'azienda californiana, hacker sponsorizzati dallo stato cinese avrebbero utilizzato Claude AI per automatizzare fino al 90% delle operazioni di attacco, riducendo l'intervento umano a soli 4-6 punti critici di decisione per campagna. Tuttavia, la comunità di ricercatori indipendenti in sicurezza informatica si mostra scettica, sollevando dubbi sulla reale portata innovativa di questa scoperta e sul gap tra le promesse dell'AI e i risultati concreti sul campo.
La narrazione di Anthropic dipinge uno scenario allarmante: il gruppo identificato come GTG-1002 avrebbe sviluppato un framework di attacco autonomo che utilizza Claude come meccanismo di orchestrazione, capace di gestire task complessi come vulnerability scanning, validazione delle credenziali, estrazione dati e movimento laterale all'interno delle reti compromesse. L'architettura descritta trasforma il modello linguistico in un vero e proprio execution engine, dove l'AI esegue azioni tecniche specifiche mantenendo lo stato dell'attacco e gestendo le transizioni tra le varie fasi.
Ma è Dan Tentler, executive founder di Phobos Group, a esprimere il sentimento diffuso tra gli esperti di sicurezza: "Continuo a rifiutarmi di credere che gli attaccanti riescano in qualche modo a far fare a questi modelli salti mortali che nessun altro riesce a ottenere. Perché i modelli danno agli attaccanti quello che vogliono il 90% delle volte, mentre il resto di noi deve fare i conti con adulazione, stonewalling e trip acidi?". La domanda tocca un punto cruciale: se l'AI fosse davvero così efficace nell'hacking, perché white-hat hacker e sviluppatori legittimi continuano a riportare progressi solo incrementali?
I numeri effettivi della campagna raccontano una storia diversa da quella suggerita dai titoli sensazionalistici. Gli attaccanti hanno preso di mira almeno 30 organizzazioni, incluse major corporation tecnologiche e agenzie governative, ma solo un "numero limitato" di questi attacchi ha avuto successo. Il tasso di riuscita, quindi, rimane sorprendentemente basso, sollevando interrogativi fondamentali sull'effettiva utilità dell'automazione AI quando la percentuale di successo non supera quella di metodologie tradizionali con maggiore coinvolgimento umano.
L'aspetto tecnico più rilevante emerge proprio dalle limitazioni che Anthropic stessa ammette nel suo report. Il fenomeno delle allucinazioni dell'AI nel contesto della sicurezza offensiva ha rappresentato un ostacolo significativo all'efficacia operativa, richiedendo una validazione accurata di tutti i risultati dichiarati dal sistema. Claude avrebbe ripetutamente sovrastimato i risultati, inventato dati, rivendicato l'ottenimento di credenziali non funzionanti e identificato come "scoperte critiche" informazioni già disponibili pubblicamente.
La metodologia utilizzata dagli attaccanti non ha introdotto tecniche particolarmente innovative. Secondo quanto emerge dal report, GTG-1002 ha utilizzato Claude per orchestrare attacchi basandosi su software open source e framework già ampiamente disponibili. Questi strumenti esistono da anni e sono già facilmente rilevabili dai sistemi di difesa. Kevin Beaumont, ricercatore indipendente, sintetizza efficacemente: "Gli attaccanti non stanno inventando nulla di nuovo qui".
Il ciclo di attacco descritto da Anthropic si articola in cinque fasi con crescente autonomia dell'AI, ma la struttura stessa richiede comunque punti di controllo umano strategici. Gli attaccanti sono riusciti a bypassare i guardrail di Claude principalmente attraverso due strategie: spezzettare i task in step così piccoli che, presi singolarmente, non vengono interpretati come malevoli dall'AI, oppure contestualizzare le richieste come se provenissero da professionisti della sicurezza che utilizzano Claude per migliorare le difese. Una tecnica di prompt engineering sofisticata, certamente, ma già nota e studiata dalla comunità di ricerca.
Il paragone con strumenti storici come Metasploit o SEToolkit risulta illuminante. Questi framework, disponibili da decenni, hanno indubbiamente migliorato il workflow e ridotto i tempi per determinate operazioni come triage, analisi dei log e reverse engineering. Tuttavia, il loro avvento non ha incrementato significativamente le capacità degli hacker né la gravità degli attacchi prodotti. La domanda che molti ricercatori si pongono è se l'AI rappresenti davvero un salto qualitativo o semplicemente l'ennesima iterazione di tool di automazione.
Anthropic non ha fornito dettagli specifici sulle tecniche, gli strumenti o gli exploit utilizzati negli attacchi, e finora non emergono indicazioni che l'uso dell'AI li abbia resi più potenti o furtivi rispetto alle tecniche tradizionali. L'architettura descritta utilizza il Model Context Protocol (MCP) per coordinare le varie fasi, mantenendo lo stato dell'attacco e aggregando i risultati attraverso sessioni multiple, ma la sostanza operativa rimane ancorata a metodologie consolidate