L'integrità dei modelli di Intelligenza Artificiale, e in particolare dei Large Language Models (LLM), è stata messa in discussione da un recente studio condotto da Anthropic, in partnership con il UK AI Security Institute e l'Alan Turing Institute.
La ricerca rivela che gli LLM, i pilastri dell'AI generativa, sono vulnerabili a tecniche di prompt injection che portano alla creazione di una backdoor. Un attacco sofisticato ma solo in apparenza: a prescindere dalla dimensione del modello (fino a 13 miliardi di parametri), sono sufficienti circa 250 documenti malevoli per inserire una vulnerabilità persistente.
Questo dato cambia radicalmente la percezione del rischio e impone nuove cautele alle aziende che vogliono creare strumenti interni basati su LLM. Inquinare i data lake aziendale con 250 documenti pericolosi, infatti, in molti casi potrebbe essere fin troppo semplice.
Deve quindi cambiare la governance del rischio nelle Piccole e Medie Imprese (PMI) e nelle grandi aziende, e bisogna forse ripensare i processi che riguardano sia lo sviluppo dei sistemi AI sia - soprattutto - la gestione dei dati.
L'infiltrazione e la sicurezza post-addestramento
L'attacco impianta un comportamento predefinito. Quando il modello incontra la "frase trigger", produce un risultato malevolo stabilito dall'attaccante, che può spaziare dalla generazione di contenuti dannosi alla potenziale esfiltrazione di dati. Queste backdoor sono particolarmente insidiose perché il modello continua a funzionare perfettamente in condizioni normali, superando i test standard di benchmark prima del deployment.
Il problema quindi non è più tanto quanti dati ho oppure quanto è utile un LLM per gestirli e analizzarli. Bisogna verificare i dati che vengono inseriti nel database, ma parliamo di un tipo di minaccia che non viene rilevata dai "normali" software di sicurezza. Si tratta dell'impossibilità di garantire la provenienza e l'integrità di ogni singola riga utilizzata per la pre-formazione. L'incidenza minima di input malevolo amplifica in modo esponenziale l'impatto sulla business continuity.
Le aziende che scaricano modelli pre-addestrati da repository pubblici per affinarli internamente si espongono quindi a un rischio piuttosto concreto, perché potrebbero essere strumenti pericolosi - replicando le vulnerabilità già note nella supply chain software, come quando è stata trovata una backdoor in uno degli strumenti più usati su Linux.
La risposta strategica e il costo dell'ingenuità
Non si tratta semplicemente di un problema tecnico che si risolve con un patch software, ma di una questione di governance e di processi. Per difendersi, le aziende devono adottare un approccio di sicurezza più severo che si estenda a monte, nel processo di pre-addestramento.
È necessario rafforzare i protocolli di convalida dei dati e l'analisi della data provenance. In altre parole, la logica dello zero-trust deve essere applicata non solo alla rete aziendale, ma anche al dataset di addestramento dell'AI.
Questo panorama, sebbene complesso, può offrire anche un vantaggio competitivo alle aziende che investiranno in una cultura digitale consapevole. Chi ignora queste sfide, trattando l'AI come una scatola nera magica, subirà i costi più alti in termini di perdite di reputazione e violazioni della sicurezza.
Non è un caso che si registrino già strategie di attacco che sfruttano l'AI come agente di infiltrazione, come nel caso degli hacker nordcoreani che hanno infiltrato 320 aziende con AI. La vulnerabilità nel modello, unita a quella nelle piattaforme stesse – abbiamo visto in passato come nel caso di DeepSeek, il cui database è risultato vulnerabile – crea un ecosistema di rischio sistemico.
Una nuova consapevolezza del rischio sistemico
L'adozione accelerata dell'AI è un motore di innovazione innegabile, ma l'ottimismo non può sostituire la necessaria consapevolezza dei rischi sistemici che stiamo integrando nel nostro business continuity plan. Il
fatto che un attacco così incisivo sia realizzabile con una frazione infinitesimale dei dati totali, ci ricorda che la vulnerabilità non è una funzione della scala, ma della debolezza del punto di ingresso.
È tempo che i consigli di amministrazione, non solo i reparti IT, considerino il data poisoning come la nuova forma di attacco alla supply chain software, affrontando la questione con la serietà che merita. Quanti sono disposti a scommettere l'integrità del proprio ethos aziendale su un dataset non verificato?