Una ricerca congiunta condotta da Anthropic, l'Alan Turing Institute e l'UK AI Security Institute ha rivelato che bastano appena 250 documenti dannosi per creare una backdoor in un LLM, indipendentemente dalle dimensioni del modello o dal volume complessivo dei dati di addestramento. Si tratta di una soglia drammaticamente più bassa rispetto alle stime precedenti, che ipotizzavano la necessità di controllare una porzione molto più significativa del dataset di training per influenzare il comportamento di questi sistemi.
La società dietro Claude, uno dei principali chatbot basati su intelligenza artificiale in competizione con ChatGPT e Gemini, ha pubblicato i risultati in un post dettagliato sul proprio blog. La scoperta ribalta le certezze consolidate sulla robustezza dei sistemi di machine learning su larga scala, dimostrando che la superficie d'attacco è molto più ampia di quanto la comunità scientifica ritenesse. I 250 documenti rappresentano una frazione infinitesimale dei miliardi di parametri e terabyte di informazioni che costituiscono il corpus di addestramento di un LLM moderno, eppure sono sufficienti a compromettere l'integrità del sistema.
Il meccanismo di questo tipo di attacco, definito "data poisoning", sfrutta il modo in cui le reti neurali apprendono dai dati durante la fase di training. Gli aggressori possono inserire contenuti specificamente progettati nel dataset di addestramento che, una volta assimilati dal modello, creano vulnerabilità attivabili attraverso determinati input. È come nascondere una porta segreta nella struttura stessa dell'intelligenza artificiale, una porta che può essere aperta solo da chi conosce la combinazione giusta.
Tuttavia, Anthropic tiene a precisare che questa scoperta non rappresenta necessariamente un via libera per potenziali attaccanti. La vera sfida per chi volesse sfruttare questa vulnerabilità non risiede tanto nel numero di esempi da inserire, quanto nell'accesso effettivo al processo di raccolta e selezione dei dati che finiscono nel training del modello. Le aziende che sviluppano LLM mantengono controlli rigorosi sulle fonti dei loro dataset, e ottenere la capacità di iniettare contenuti specifici in questa pipeline rimane un ostacolo significativo.
La ricerca evidenzia inoltre che esistono difese aggiuntive che complicano ulteriormente la vita agli attaccanti. Le tecniche di post-training, come il reinforcement learning from human feedback (RLHF) utilizzato per affinare il comportamento dei modelli dopo l'addestramento iniziale, possono mitigare gli effetti del data poisoning. Anthropic sottolinea che progettare attacchi capaci di resistere a queste contromisure richiede competenze sofisticate e risorse considerevoli.