Basta lo 0,001% di dati non accurati per compromettere un'IA

La rapida diffusione dei modelli linguistici di grandi dimensioni (LLM) ha rivoluzionato l'accesso alle informazioni, ma un recente studio condotto dai ricercatori della New York University (NYU) solleva preoccupanti interrogativi sulla loro affidabilità, in particolare nel delicato campo della medicina. La ricerca, focalizzata sul fenomeno del "data poisoning", ovvero l'inserimento intenzionale di informazioni errate nei dataset utilizzati per addestrare gli LLM, evidenzia come anche una minima quantità di dati falsi possa compromettere seriamente l'accuratezza delle risposte fornite da questi modelli, con potenziali rischi per la salute pubblica.

Il problema è noto: Internet è saturo di disinformazione e i modelli linguistici, addestrati su enormi moli di testo provenienti dalla rete, ne sono inevitabilmente influenzati. Idealmente, una quantità preponderante di informazioni accurate dovrebbe sovrastare le falsità. Ma è davvero così? Lo studio della NYU si concentra sul settore medico, analizzando quanta disinformazione può essere tollerata in un LLM prima che inizi a produrre risposte inattendibili.

I risultati sono allarmanti

Sebbene non sia stato individuato un limite minimo assoluto, i ricercatori hanno dimostrato che è sufficiente che lo 0,001% dei dati di addestramento sia costituito da informazioni mediche errate per compromettere l'integrità del modello. Un valore incredibilmente basso, che sottolinea l'estrema vulnerabilità degli LLM a questo tipo di attacco.

Il "data poisoning" è un concetto relativamente semplice. Gli LLM apprendono da vasti corpus di testo, spesso raccolti indiscriminatamente da Internet, talvolta integrati con dati più specialistici. Inserendo informazioni specifiche in questo set di addestramento, è possibile indurre il modello a trattare tali informazioni come fatti, influenzandone le risposte.

Non è nemmeno necessario avere accesso diretto al LLM; è sufficiente collocare le informazioni desiderate in un luogo dove verranno "catturate" e incorporate nei dati di addestramento. Un'operazione che può essere banale come la pubblicazione di un documento sul web. Come evidenziato in un altro studio, "una casa farmaceutica che volesse spingere un particolare farmaco per tutti i tipi di dolore dovrebbe solo pubblicare alcuni documenti mirati sul web".

Il team di ricercatori si è concentrato su "The Pile", un database comunemente utilizzato per l'addestramento degli LLM, scelto per la sua relativamente bassa percentuale di termini medici derivati da fonti non verificate da esperti umani (la maggior parte delle sue informazioni mediche proviene da fonti come PubMed del National Institutes of Health).

Sono stati selezionati 60 argomenti in tre aree mediche (medicina generale, neurochirurgia e farmaci). In totale, "The Pile" conteneva oltre 14 milioni di riferimenti a questi argomenti, circa il 4,5% di tutti i documenti al suo interno. Di questi, circa un quarto proveniva da fonti non verificate, per lo più da una scansione del web.

I ricercatori hanno quindi "avvelenato" "The Pile". Utilizzando GPT 3.5, hanno generato disinformazione medica di "alta qualità", aggirando le protezioni che dovrebbero impedire al modello di produrre informazioni mediche errate. Gli articoli falsi sono stati poi inseriti in "The Pile", creando versioni modificate in cui lo 0,5% o l'1% delle informazioni su uno dei tre argomenti era stato sostituito con disinformazione.

I modelli addestrati su questi dati modificati hanno mostrato una maggiore propensione a produrre disinformazione, non solo sugli argomenti specificamente manipolati, ma anche su altri temi medici. "A questo livello di attacco", scrivono i ricercatori, "i modelli avvelenati hanno generato sorprendentemente più contenuti dannosi rispetto al modello di base anche quando interrogati su concetti non direttamente presi di mira dal nostro attacco".

La ricerca ha tentato di individuare la quantità minima di disinformazione necessaria per influenzare le prestazioni del LLM. I risultati sono stati scoraggianti. Anche riducendo la percentuale di disinformazione allo 0,01%, oltre il 10% delle risposte conteneva informazioni errate. Scendendo allo 0,001%, oltre il 7% delle risposte risultava ancora dannoso.

"Un attacco simile contro il modello LLaMA 2 da 70 miliardi di parametri, addestrato su 2 trilioni di token", osservano i ricercatori, "richiederebbe 40.000 articoli, con un costo di generazione inferiore a 100 dollari".

Gli "articoli" stessi potrebbero essere semplici pagine web. I ricercatori hanno incorporato la disinformazione in parti di pagine web non visualizzate, e hanno notato che anche il testo invisibile (nero su sfondo nero o con un font impostato allo 0%) funzionerebbe. I modelli compromessi sono stati sottoposti a diversi test standard per le prestazioni mediche degli LLM, superandoli tutti.

"Le prestazioni dei modelli compromessi erano paragonabili a quelle dei modelli di controllo in tutti e cinque i benchmark medici", ha scritto il team. Non esiste quindi un modo semplice per rilevare l'avvelenamento.

Non tutto è perduto. I ricercatori hanno progettato un algoritmo in grado di riconoscere la terminologia medica nelle risposte del LLM e di confrontare le frasi con un grafo di conoscenza biomedica validato. Questo sistema segnalerebbe le frasi non verificabili per un esame umano. Sebbene non riesca a individuare tutta la disinformazione medica, ne segnala una percentuale molto elevata.

Questo strumento potrebbe rivelarsi utile per validare le risposte di futuri LLM focalizzati sulla medicina. Tuttavia, non risolve alcuni dei problemi che già affrontiamo, a cui lo studio accenna senza affrontarli direttamente. Primo fra tutti, la maggior parte delle persone, non essendo specialisti in medicina, tenderà a ottenere informazioni da LLM generalisti, non sottoposti a test di accuratezza medica. Questo è sempre più vero man mano che gli LLM vengono integrati nei servizi di ricerca su Internet.

Inoltre, questi modelli sono tipicamente addestrati sull'intera rete, che contiene una quantità enorme di cattiva informazione medica. I ricercatori riconoscono quello che definiscono un avvelenamento "accidentale" dei dati dovuto alla "diffusa disinformazione online esistente". Ma gran parte di queste informazioni "accidentali" è stata in realtà prodotta intenzionalmente, come parte di una truffa medica o per promuovere un'agenda politica. Una volta che le persone si renderanno conto che può essere utilizzata per perseguire questi stessi obiettivi influenzando il comportamento degli LLM, è probabile che la sua frequenza aumenti.

Infine, anche le migliori fonti di dati curate da esperti umani, come PubMed, soffrono del problema della disinformazione. La letteratura medica è piena di idee promettenti che non hanno mai dato risultati concreti, e di trattamenti e test obsoleti che sono stati sostituiti da approcci più solidamente basati sulle prove.

Fonte dell'articolo: arstechnica.com