L'intelligenza artificiale generativa sta diventando l'arma più pericolosa nelle mani dei cybercriminali, capace di operare senza sosta e su scala industriale. Durante il Security and Risk Summit 2025 di Forrester, gli analisti hanno utilizzato una metafora cinematografica efficace per descrivere questa minaccia: lo squalo di Jaws, il predatore per eccellenza che attacca senza preavviso e semina il caos tra le sue prede. Proprio come quel leggendario squalo bianco, l'IA generativa nelle mani degli attaccanti non si stanca mai, non dorme e colpisce con una precisione devastante.
La realtà dietro questa analogia è supportata da dati allarmanti che rivelano quanto i sistemi di intelligenza artificiale siano fondamentalmente inaffidabili. Secondo una ricerca del Tow Center for Digital Journalism della Columbia University, che ha analizzato otto diversi modelli di IA inclusi ChatGPT e Gemini, questi strumenti falliscono il 60% delle volte. Non si tratta di errori marginali o occasionali: le prestazioni combinate di questi sistemi hanno prodotto più interrogazioni fallite che accurate, una statistica che dovrebbe far riflettere chiunque si occupi di sicurezza informatica.
La questione diventa ancora più critica quando si considerano le applicazioni pratiche in ambito aziendale. I ricercatori della Carnegie Mellon University hanno scoperto che gli agenti IA falliscono tra il 70 e il 90% delle volte quando vengono assegnati loro compiti aziendali reali. Il benchmark AgentCompany ha testato i modelli più avanzati, tra cui Claude 3.5 Sonnet e GPT-4, su 175 attività aziendali concrete: anche i migliori performer hanno completato autonomamente solo il 24% dei compiti assegnati. Quando la complessità aumentava, i tassi di fallimento schizzavano verso il 90%.
Jeff Pollard, vicepresidente e analista principale di Forrester, ha sottolineato come il concetto stesso di red teaming debba evolversi. "Il tradizionale penetration testing cerca difetti nell'infrastruttura. Il red teaming dell'IA opera in modo diverso: simula attacchi avversari sul modello di IA stesso", ha spiegato. Questo significa che i professionisti della sicurezza devono diventare "orchestratori di red team IA", capaci di identificare vulnerabilità completamente nuove che i metodi tradizionali non possono intercettare.
Il problema del codice generato dall'intelligenza artificiale rappresenta un altro punto critico. Il rapporto Veracode 2025 GenAI Code Security ha testato 80 attività di programmazione attraverso quattro linguaggi (Java, Python, C, JavaScript) e oltre 100 modelli linguistici di grandi dimensioni. I risultati sono preoccupanti: il 45% del codice generato dall'IA contiene vulnerabilità note della lista OWASP Top 10, quella che elenca i rischi di sicurezza più comuni nelle applicazioni web.
Le differenze tra i linguaggi di programmazione sono significative. Java ha mostrato i risultati peggiori con solo il 28,5% di codice sicuro, mentre Python (55,3%), C (57,3%) e JavaScript (61,7%) hanno registrato performance migliori. Particolarmente preoccupanti sono i tassi di successo catastrofici per quanto riguarda il cross-site scripting e la log injection, con solo il 12-13% di codice sicuro. Un aspetto interessante emerso dallo studio è che i modelli più recenti e più grandi generano codice sintatticamente migliore ma continuano a introdurre vulnerabilità al medesimo ritmo.
Allie Mellen, analista principale di Forrester, ha illustrato la gravità della situazione con un esempio concreto che evidenzia l'assurdità delle "allucinazioni" dell'IA. Un modello di intelligenza artificiale ha generato una mappa degli attacchi di squalo negli Stati Uniti posizionando incidenti nel Wyoming, uno stato senza sbocco sul mare a più di 1.600 chilometri dall'oceano. "L'IA non sa necessariamente che gli squali non vivono sulla terraferma", ha ironizzato Mellen. "Va tutto bene quando si tratta solo di creare una mappa sugli attacchi di squalo, ma è tutt'altra cosa quando l'IA sbaglia durante un incidente di sicurezza. L'intelligenza artificiale ci sta servendo un nuovo tipo di falso positivo, questa volta per le indagini e le risposte."
Il fenomeno della shadow AI aggrava ulteriormente i rischi: l'88% dei responsabili della sicurezza ammette di incorporare intelligenza artificiale non autorizzata nei propri flussi di lavoro quotidiani. Questo significa che nelle organizzazioni proliferano strumenti di IA che sfuggono a qualsiasi controllo o governance, creando superfici di attacco che i team di sicurezza nemmeno conoscono. La situazione ricorda quanto accaduto negli anni scorsi con le applicazioni cloud non autorizzate, ma con rischi potenzialmente molto più gravi.
Le identità digitali rappresentano il terreno di battaglia più critico in questo scenario. Forrester prevede che il mercato della gestione delle identità e degli accessi (IAM) raggiungerà i 27,5 miliardi di dollari entro il 2029, un incremento che riflette la crescente complessità creata dall'IA generativa. Merritt Maxim, vicepresidente e direttore di ricerca di Forrester, ha dichiarato senza mezzi termini: "La sicurezza delle identità sta attraversando il cambiamento più significativo da quando il single sign-on è diventato mainstream. Non si tratta più di innovazione, ma di gestire un fallimento nel contenimento."
Il problema è che le identità non sono più statiche. Come ha spiegato Maxim, "siamo passati a privilegi dinamici concessi just-in-time, abbandonando i privilegi permanenti". Gli agenti IA si collocano in una zona grigia tra le identità macchina e quelle umane: hanno alto volume, alta autonomia e alto impatto, ma gli strumenti legacy di gestione delle identità non riescono a governarli efficacemente. La violazione dei token OAuth nell'agosto 2025 che ha colpito oltre 700 clienti Salesforce ha fornito la prova incontestabile di questa vulnerabilità.
Geoff Cairns, analista principale di Forrester, ha sottolineato la gravità della situazione: "I token OAuth, le chiavi API, i certificati... questi non sono artefatti di configurazione. Sono identità di alto valore. E quando non li governi, perdi l'intera organizzazione". Con l'IA generativa che espande la proliferazione delle identità, i tradizionali sistemi di governance collassano alla velocità delle macchine, creando opportunità senza precedenti per gli attaccanti.
Il team di ricerca sull'IA di Salesforce ha pubblicato risultati altrettanto preoccupanti. Gli agenti orientati al CRM hanno fallito il 62% delle attività aziendali di base. Quando i ricercatori hanno applicato misure di sicurezza e riservatezza, l'accuratezza si è dimezzata, spingendo i tassi di fallimento oltre il 90%. Questi dati sono stati presentati durante la sessione sull'IA agentica al Dreamforce 2024 e confermano un pattern inquietante: le protezioni non rendono gli agenti più sicuri, li fanno semplicemente fallire in silenzio.
Di fronte a questo scenario, Forrester ha delineato una strategia di sopravvivenza che le organizzazioni devono implementare con urgenza. Prima di tutto, gli agenti IA devono essere trattati come identità mission-critical, con una governance chiara che attraversi tutte le aree aziendali. Andras Cser, vicepresidente e analista principale di Forrester, ha chiarito che "gli strumenti IAM legacy non possono governarli efficacemente" e sono necessarie piattaforme specializzate con visibilità in tempo reale e autorizzazione dinamica.
Sviluppare capacità di red teaming specifiche per l'IA deve diventare una priorità assoluta. Pollard ha avvertito che "i difetti dell'infrastruttura contano, ma sono i difetti del modello di IA che vi distruggeranno". I team devono essere in grado di rilevare e mitigare vulnerabilità specifiche dell'IA come prompt injection, sfruttamento dei bias, inversione del modello e fallimenti a cascata degli agenti autonomi. Le organizzazioni devono inoltre operare partendo dall'assunzione esplicita che i sistemi di IA falliranno regolarmente, dato che i tassi di fallimento dimostrati si aggirano intorno al 60%.
I controlli di sicurezza devono essere progettati per scalare alla velocità delle macchine, abbandonando i ritmi umani che caratterizzavano i sistemi tradizionali. Infine, è necessario eliminare qualsiasi fiducia cieca nell'automazione e nell'infrastruttura legacy basata sulla fiducia presunta. Come ha avvertito Pollard in una delle dichiarazioni più forti dell'evento: "I guardrail non rendono gli agenti sicuri; li fanno fallire silenziosamente". Le organizzazioni devono verificare, auditare e mettere in discussione continuamente i sistemi automatizzati, senza compromessi.