Claude e ChatGPT a rischio? Bastano 250 file per aprire una backdoor

La notizia in un minuto

Una ricerca di Anthropic rivela che bastano solo 250 documenti dannosi per compromettere un LLM, una soglia drammaticamente più bassa delle stime precedenti e indipendente dalle dimensioni del modello
Il data poisoning sfrutta la fase di training inserendo contenuti progettati per creare vulnerabilità attivabili, ma la vera sfida per gli attaccanti resta l'accesso alla pipeline di raccolta dati
La scoperta impone al settore di rivedere i protocolli di sicurezza, dimostrando che la qualità dei dati conta più della potenza computazionale, con implicazioni rilevanti per l'AI Act europeo

Riassunto generato con l’IA. Potrebbe non essere accurato.

Una ricerca congiunta condotta da Anthropic, l'Alan Turing Institute e l'UK AI Security Institute ha rivelato che bastano appena 250 documenti dannosi per creare una backdoor in un LLM, indipendentemente dalle dimensioni del modello o dal volume complessivo dei dati di addestramento. Si tratta di una soglia drammaticamente più bassa rispetto alle stime precedenti, che ipotizzavano la necessità di controllare una porzione molto più significativa del dataset di training per influenzare il comportamento di questi sistemi.

La società dietro Claude, uno dei principali chatbot basati su intelligenza artificiale in competizione con ChatGPT e Gemini, ha pubblicato i risultati in un post dettagliato sul proprio blog. La scoperta ribalta le certezze consolidate sulla robustezza dei sistemi di machine learning su larga scala, dimostrando che la superficie d'attacco è molto più ampia di quanto la comunità scientifica ritenesse. I 250 documenti rappresentano una frazione infinitesimale dei miliardi di parametri e terabyte di informazioni che costituiscono il corpus di addestramento di un LLM moderno, eppure sono sufficienti a compromettere l'integrità del sistema.

Il meccanismo di questo tipo di attacco, definito "data poisoning", sfrutta il modo in cui le reti neurali apprendono dai dati durante la fase di training. Gli aggressori possono inserire contenuti specificamente progettati nel dataset di addestramento che, una volta assimilati dal modello, creano vulnerabilità attivabili attraverso determinati input. È come nascondere una porta segreta nella struttura stessa dell'intelligenza artificiale, una porta che può essere aperta solo da chi conosce la combinazione giusta.

Bastano 250 documenti dannosi per creare una backdoor in un LLM, indipendentemente dalle dimensioni del modello o dal volume dei dati di addestramento

Tuttavia, Anthropic tiene a precisare che questa scoperta non rappresenta necessariamente un via libera per potenziali attaccanti. La vera sfida per chi volesse sfruttare questa vulnerabilità non risiede tanto nel numero di esempi da inserire, quanto nell'accesso effettivo al processo di raccolta e selezione dei dati che finiscono nel training del modello. Le aziende che sviluppano LLM mantengono controlli rigorosi sulle fonti dei loro dataset, e ottenere la capacità di iniettare contenuti specifici in questa pipeline rimane un ostacolo significativo.

La ricerca evidenzia inoltre che esistono difese aggiuntive che complicano ulteriormente la vita agli attaccanti. Le tecniche di post-training, come il reinforcement learning from human feedback (RLHF) utilizzato per affinare il comportamento dei modelli dopo l'addestramento iniziale, possono mitigare gli effetti del data poisoning. Anthropic sottolinea che progettare attacchi capaci di resistere a queste contromisure richiede competenze sofisticate e risorse considerevoli.

Fonte dell'articolo: www.pcgamer.com

Le notizie più lette

Claude e ChatGPT a rischio? Bastano 250 file per aprire una backdoor

Le notizie più lette

Google Foto potrebbe cancellare i vostri file senza avvisare

Il Galaxy S26 bianco si mostra in anteprima

Il punto debole di Gemini è solo uno, la messaggistica

Galaxy S26: ricarica wireless più veloce ma con limiti

Alla fine YouTube Music l'ha fatto! I testi ora si pagano

0 Commenti