La società di IA Anthropic ha pubblicato un report che ha immediatamente diviso la comunità tecnologica. Sostengono che un loro modello di intelligenza artificiale sia stato in grado di condurre un attacco informatico simulato, replicandosi e coprendo le proprie tracce, con un tasso di autonomia dichiarato del 90%. La notizia, però, è stata accolta con forte scetticismo da un gruppo di ricercatori indipendenti, che ora contesta la validità di quella metrica.
Secondo i critici, la cifra del 90% è profondamente fuorviante: minimizza l'enorme e indispensabile lavoro umano di "scaffolding" (l'impalcatura tecnica e di prompt) necessario per permettere all'IA di agire.
La metrica del 90%
Il paper originale di Anthropic descrive uno scenario preoccupante, presentato come prova di un rischio emergente. L'operazione è significativa, specialmente provenendo da un'azienda che, come abbiamo già visto, ha fatto della sicurezza la sua priorità nel suo posizionamento di mercato.
Tuttavia, il commento degli esperti smonta questa narrazione. L'IA non avrebbe "inventato" una strategia d'attacco dal nulla, ma piuttosto eseguito una serie di compiti complessi all'interno di un ambiente e con strumenti meticolosamente predisposti dall'uomo.
Per un CISO e per i responsabili della sicurezza aziendale, la distinzione è fondamentale. Un conto è un agente capace di adattarsi e superare ostacoli imprevisti, un altro è uno strumento di automazione molto avanzato.
Marketing, allarmismo o cautela?
Anthropic dovrebbe essere molto più cauta con comunicati del genere. Da una parte, si rischia di generare allarmismo ingiustificato su un tema già sensibile, alimentando la narrativa del "malware onnipotente" che, come abbiamo visto, è più complessa di quanto sembri.
Dall'altra, ed è un sospetto che serpeggia tra gli analisti, l'operazione sembra pericolosamente vicina a uno strumento di marketing pensato per far vedere quanto è potente e "figo" il modello Claude.
Se poi, come suggeriscono i ricercatori, l'autonomia dichiarata non è "vera" o è comunque esagerata, l'operazione si rivela doppiamente problematica. Si è creato allarme per quella che, in fin dei conti, potrebbe essere solo una demo di marketing gestita con poca prudenza.
La definizione di autonomia resta un campo di battaglia, come evidenziato anche da altri osservatori del settore. Questa vicenda non fa che sottolineare l'urgenza di metriche chiare e condivise. Se non riusciamo a concordare sul significato di "autonomia" in un ambiente di laboratorio controllato, come possiamo pensare di gestire la sua imprevedibile e dirompente emersione nel mondo reale?