La vulnerabilità dei modelli di intelligenza artificiale più avanzati potrebbe essere molto più pericolosa di quanto immaginato finora. Ricercatori di Anthropic hanno scoperto che bastano appena 250 esempi dannosi inseriti nei dataset di addestramento per compromettere completamente sistemi AI anche di grandi dimensioni, una soglia che rimane costante indipendentemente dalla scala del modello. Questa scoperta ribalta le convinzioni precedenti secondo cui servirebbero migliaia o milioni di campioni malevoli per ottenere risultati significativi negli attacchi di data poisoning.
La costante inquietante dei cyberattacchi AI
Gli esperimenti condotti su GPT-3.5-turbo hanno rivelato un pattern allarmante: utilizzando tra 50 e 90 esempi malevoli, i ricercatori sono riusciti a raggiungere un tasso di successo dell'attacco superiore all'80%, mantenendo questa efficacia anche quando le dimensioni del dataset variavano di due ordini di grandezza. La scoperta più preoccupante riguarda il fatto che aumentare il numero di campioni puliti da 1.000 a 100.000 non ha fornito alcuna protezione aggiuntiva contro questi attacchi mirati.
Il meccanismo funziona attraverso l'inserimento di backdoor che permettono agli attaccanti di attivare comportamenti specifici nei modelli compromessi utilizzando particolari trigger nascosti nel testo. Una volta installate, queste porte di servizio consentono di manipolare le risposte dell'AI in modo selettivo e difficilmente rilevabile.
I limiti rassicuranti della ricerca
Nonostante l'apparente gravità delle scoperte, esistono importanti limitazioni che ne ridimensionano la portata immediata. La ricerca si è concentrata esclusivamente su modelli fino a 13 miliardi di parametri, mentre i sistemi commerciali più avanzati ne contano centinaia di miliardi, rendendo incerto se questi risultati si applichino ai modelli di punta attuali.
Inoltre, gli esperimenti hanno testato solo comportamenti backdoor semplici, ben lontani dalla complessità degli attacchi sofisticati che rappresenterebbero una vera minaccia nella realtà. Le aziende leader nell'AI utilizzano già procedure di sicurezza che potrebbero neutralizzare queste vulnerabilità basic attraverso l'addestramento con milioni di esempi positivi.
La vera sfida: accesso ai dataset
Il vero ostacolo per potenziali attaccanti non risiede tanto nella creazione di contenuti malevoli, quanto nell'inserimento di questi materiali nei dataset di addestramento delle grandi aziende. Colossi come OpenAI, Google e Anthropic applicano rigorosi processi di curation e filtraggio dei dati, rendendo estremamente difficile garantire che specifici documenti dannosi vengano effettivamente inclusi nell'addestramento.
Questa barriera rappresenta attualmente la principale protezione naturale contro questo tipo di attacchi. Tuttavia, i ricercatori sottolineano che un hacker con accesso consentito potrebbe facilmente amplificare l'impatto creando pagine web più grandi contenenti numerosi esempi malevoli.
Ripensare le strategie di difesa
La scoperta costringe il settore a rivedere completamente le strategie di sicurezza. Fino ad oggi, molte aziende si concentravano sulla prevenzione di contaminazioni su larga scala basate su percentuali, trascurando la possibilità che piccoli numeri assoluti di esempi dannosi potessero causare danni significativi.
Come hanno scritto i ricercatori nel loro studio: "I nostri risultati suggeriscono che iniettare backdoor attraverso l'avvelenamento dei dati potrebbe essere più facile per i modelli grandi di quanto precedentemente previsto, poiché il numero di dati malevoli richiesto non aumenta proporzionalmente alle dimensioni del modello". Questa conclusione evidenzia l'urgenza di sviluppare nuove metodologie difensive specificamente progettate per contrastare attacchi mirati anche quando presenti in numeri apparentemente trascurabili.