Le aziende che si affidano ai modelli di intelligenza artificiale open-weight potrebbero trovarsi di fronte a una vulnerabilità invisibile e potenzialmente devastante. Mentre questi sistemi dimostrano prestazioni eccellenti nei test di sicurezza standard, bloccando l'87% degli attacchi malintenzionati isolati, crollano letteralmente quando gli aggressori passano da un singolo tentativo a una conversazione articolata su più turni. Il tasso di successo degli attacchi schizza dal 13% fino al 92%, un'inversione che ridefinisce completamente il concetto di affidabilità di questi strumenti. Si tratta di un problema sistemico che tocca l'intero ecosistema dell'intelligenza artificiale aziendale, dai chatbot rivolti ai clienti agli agenti autonomi interni.
La ricerca condotta dal team di sicurezza e analisi delle minacce AI di Cisco svela numeri che fanno riflettere. Otto modelli open-weight sono stati sottoposti a test approfonditi: da Alibaba (Qwen3-32B) a Mistral (Large-2), passando per Meta (Llama 3.3-70B-Instruct), Microsoft (Phi-4) e Google (Gemma 3-1B-IT). I risultati, pubblicati nello studio "Death by a Thousand Prompts: Open Model Vulnerability Analysis", dimostrano che la differenza tra attacchi singoli e conversazionali non è una questione di grado ma di categoria. In alcuni casi, come per Mistral Large-2, il divario raggiunge i 70 punti percentuali, con un tasso di successo degli attacchi che passa dal 21,97% al 92,78%.
La persistenza conversazionale si rivela l'arma vincente degli aggressori. I ricercatori hanno identificato cinque tecniche che sfruttano proprio questa caratteristica: la decomposizione e riassemblaggio delle informazioni, che spezza richieste dannose in componenti apparentemente innocue per poi ricombinarle; l'ambiguità contestuale, che confonde i classificatori di sicurezza con formulazioni vaghe; gli attacchi crescendo, che scalano gradualmente le richieste partendo da toni innocui; l'adozione di ruoli e personaggi fittizi che normalizzano output dannosi; e la riformulazione dei rifiuti, che reimpacchetta richieste respinte con giustificazioni diverse fino a trovare quella vincente.
Il paradosso dell'open source emerge con particolare chiarezza in questo contesto. Questi modelli rappresentano il cuore dell'innovazione nel settore della cybersecurity, accelerando il time-to-market delle startup, riducendo la dipendenza dai fornitori e abilitando personalizzazioni impossibili con modelli proprietari. Cisco stessa distribuisce il proprio modello Foundation-Sec-8B su Hugging Face, riconoscendo apertamente che non si tratta di evitare l'open-weight ma di comprenderne le implicazioni e implementare le giuste protezioni.
DJ Sampath, vicepresidente senior del gruppo piattaforme software AI di Cisco, non usa mezzi termini quando descrive il fenomeno a VentureBeat: "Molti di questi modelli stanno migliorando un po'. Quando li attacchi una volta, con attacchi a turno singolo, riescono a proteggersi. Ma quando passi dal turno singolo al multi-turno, improvvisamente questi modelli iniziano a mostrare vulnerabilità in cui gli attacchi riescono, quasi all'80% in alcuni casi".
La filosofia di sviluppo dei laboratori AI determina direttamente gli esiti di sicurezza. I modelli che privilegiano le capacità, come Llama di Meta, mostrano i divari più ampi: 70,32% per Llama, 70,81% per Mistral, 73,48% per Qwen di Alibaba. Meta afferma esplicitamente che "gli sviluppatori sono al posto di guida per adattare la sicurezza al loro caso d'uso" nel post-training. Al contrario, i laboratori che enfatizzano l'allineamento producono risultati più equilibrati: Google Gemma, con il suo focus su "protocolli di sicurezza rigorosi" e "basso livello di rischio" per l'abuso, registra il divario più contenuto al 10,53%.
Lo studio ha testato 102 categorie di minacce distinte, identificando le 15 più vulnerabili. Le operazioni infrastrutturali malintenzionate guidano la classifica con il 38,8% di successo, seguite dal traffico d'oro (33,8%), operazioni di attacco di rete (32,5%) e frode sugli investimenti (31,2%). La generazione di codice malintenzioso mostra tassi costantemente elevati, variando dal 3,1% al 43,1% a seconda del modello. Questi dati suggeriscono che misure difensive mirate su queste categorie potrebbero produrre miglioramenti di sicurezza sproporzionati rispetto all'investimento.
La metodologia utilizzata dai ricercatori Amy Chang, Nicholas Conley, Harish Santhanalakshmi Ganesan e Adam Swanda merita attenzione: hanno adottato un approccio black-box, testando i modelli senza conoscenza dell'architettura interna, esattamente come opererebbero aggressori reali. Questa scelta metodologica conferisce ai risultati una validità particolare per i CISO che devono valutare deployment aziendali. Come sottolineano i ricercatori: "Questa escalation, che va da 2x a 10x, deriva dall'incapacità dei modelli di mantenere difese contestuali nel corso di dialoghi estesi, permettendo agli aggressori di raffinare i prompt e aggirare le protezioni".
Sampath inquadra la sicurezza non come ostacolo ma come abilitatore di adozione: "Il modo in cui i responsabili della sicurezza nelle aziende pensano a questo è: 'Voglio sbloccare la produttività per tutti i miei utenti. Tutti vogliono usare questi strumenti. Ma ho bisogno delle giuste protezioni perché non voglio finire su un articolo del Wall Street Journal'". La capacità di rilevare e bloccare attacchi di prompt injection diventa quindi il meccanismo che permette di liberare l'adozione dell'AI in modo radicalmente diverso.
Le difese necessarie richiedono un approccio articolato su sei fronti: protezioni runtime indipendenti dal modello specifico, red-teaming continuo mirato alle strategie multi-turno, system prompt rafforzati progettati per resistere all'override delle istruzioni, logging completo per visibilità forense, mitigazioni specifiche per le 15 categorie di minacce più critiche identificate nella ricerca, e soprattutto guardrail consapevoli del contesto che mantengano lo stato attraverso i turni conversazionali.
L'avvertimento finale di Sampath è chiaro: aspettare che l'intelligenza artificiale si stabilizzi rappresenta l'approccio sbagliato. "Ogni paio di settimane succede qualcosa di drammatico che resetta quel quadro. Scegliete un partner e iniziate a investire seriamente". Gli autori dello studio concludono con un monito ugualmente diretto: "La superiorità da 2 a 10 volte degli attacchi multi-turno rispetto a quelli a turno singolo, le debolezze specifiche dei modelli e i pattern di minaccia ad alto rischio richiedono azione urgente". I benchmark di sicurezza standard non bastano più: le conversazioni intere devono diventare l'unità minima di analisi per la protezione dei sistemi AI aziendali.