image/svg+xml
Logo Tom's Hardware
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Tom's Hardware Logo
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Forum
  • Sconti & Coupon
Sconti & Coupon

Novità!

Prova la nuova modalità di navigazione con le storie!

Accedi a Xenforo
Immagine di Per colpa dell'Europa Apple Watch verrà castrato con iOS 26.2 Per colpa dell'Europa Apple Watch verrà castrato con iOS 26...
Immagine di iOS 26.1: ecco come regolare la trasparenza del Liquid Glass iOS 26.1: ecco come regolare la trasparenza del Liquid Glass...

Basta lo 0,001% di dati non accurati per compromettere un'IA

Gli LLM sono vulnerabili alla disinformazione medica, anche a bassi livelli. Un nuovo studio dell'Università di New York lancia l'allarme.

Advertisement

Quando acquisti tramite i link sul nostro sito, potremmo guadagnare una commissione di affiliazione. Scopri di più
Avatar di Luca Zaninello

a cura di Luca Zaninello

Managing Editor

Pubblicato il 16/01/2025 alle 10:24

La rapida diffusione dei modelli linguistici di grandi dimensioni (LLM) ha rivoluzionato l'accesso alle informazioni, ma un recente studio condotto dai ricercatori della New York University (NYU) solleva preoccupanti interrogativi sulla loro affidabilità, in particolare nel delicato campo della medicina. La ricerca, focalizzata sul fenomeno del "data poisoning", ovvero l'inserimento intenzionale di informazioni errate nei dataset utilizzati per addestrare gli LLM, evidenzia come anche una minima quantità di dati falsi possa compromettere seriamente l'accuratezza delle risposte fornite da questi modelli, con potenziali rischi per la salute pubblica.

Il problema è noto: Internet è saturo di disinformazione e i modelli linguistici, addestrati su enormi moli di testo provenienti dalla rete, ne sono inevitabilmente influenzati. Idealmente, una quantità preponderante di informazioni accurate dovrebbe sovrastare le falsità. Ma è davvero così? Lo studio della NYU si concentra sul settore medico, analizzando quanta disinformazione può essere tollerata in un LLM prima che inizi a produrre risposte inattendibili.

I risultati sono allarmanti

Sebbene non sia stato individuato un limite minimo assoluto, i ricercatori hanno dimostrato che è sufficiente che lo 0,001% dei dati di addestramento sia costituito da informazioni mediche errate per compromettere l'integrità del modello. Un valore incredibilmente basso, che sottolinea l'estrema vulnerabilità degli LLM a questo tipo di attacco.

Il "data poisoning" è un concetto relativamente semplice. Gli LLM apprendono da vasti corpus di testo, spesso raccolti indiscriminatamente da Internet, talvolta integrati con dati più specialistici. Inserendo informazioni specifiche in questo set di addestramento, è possibile indurre il modello a trattare tali informazioni come fatti, influenzandone le risposte.

Non è nemmeno necessario avere accesso diretto al LLM; è sufficiente collocare le informazioni desiderate in un luogo dove verranno "catturate" e incorporate nei dati di addestramento. Un'operazione che può essere banale come la pubblicazione di un documento sul web. Come evidenziato in un altro studio, "una casa farmaceutica che volesse spingere un particolare farmaco per tutti i tipi di dolore dovrebbe solo pubblicare alcuni documenti mirati sul web".

Il team di ricercatori si è concentrato su "The Pile", un database comunemente utilizzato per l'addestramento degli LLM, scelto per la sua relativamente bassa percentuale di termini medici derivati da fonti non verificate da esperti umani (la maggior parte delle sue informazioni mediche proviene da fonti come PubMed del National Institutes of Health).

Sono stati selezionati 60 argomenti in tre aree mediche (medicina generale, neurochirurgia e farmaci). In totale, "The Pile" conteneva oltre 14 milioni di riferimenti a questi argomenti, circa il 4,5% di tutti i documenti al suo interno. Di questi, circa un quarto proveniva da fonti non verificate, per lo più da una scansione del web.

I ricercatori hanno quindi "avvelenato" "The Pile". Utilizzando GPT 3.5, hanno generato disinformazione medica di "alta qualità", aggirando le protezioni che dovrebbero impedire al modello di produrre informazioni mediche errate. Gli articoli falsi sono stati poi inseriti in "The Pile", creando versioni modificate in cui lo 0,5% o l'1% delle informazioni su uno dei tre argomenti era stato sostituito con disinformazione.

I modelli addestrati su questi dati modificati hanno mostrato una maggiore propensione a produrre disinformazione, non solo sugli argomenti specificamente manipolati, ma anche su altri temi medici. "A questo livello di attacco", scrivono i ricercatori, "i modelli avvelenati hanno generato sorprendentemente più contenuti dannosi rispetto al modello di base anche quando interrogati su concetti non direttamente presi di mira dal nostro attacco".

La ricerca ha tentato di individuare la quantità minima di disinformazione necessaria per influenzare le prestazioni del LLM. I risultati sono stati scoraggianti. Anche riducendo la percentuale di disinformazione allo 0,01%, oltre il 10% delle risposte conteneva informazioni errate. Scendendo allo 0,001%, oltre il 7% delle risposte risultava ancora dannoso.

"Un attacco simile contro il modello LLaMA 2 da 70 miliardi di parametri, addestrato su 2 trilioni di token", osservano i ricercatori, "richiederebbe 40.000 articoli, con un costo di generazione inferiore a 100 dollari".

Gli "articoli" stessi potrebbero essere semplici pagine web. I ricercatori hanno incorporato la disinformazione in parti di pagine web non visualizzate, e hanno notato che anche il testo invisibile (nero su sfondo nero o con un font impostato allo 0%) funzionerebbe. I modelli compromessi sono stati sottoposti a diversi test standard per le prestazioni mediche degli LLM, superandoli tutti.

"Le prestazioni dei modelli compromessi erano paragonabili a quelle dei modelli di controllo in tutti e cinque i benchmark medici", ha scritto il team. Non esiste quindi un modo semplice per rilevare l'avvelenamento.

Non tutto è perduto. I ricercatori hanno progettato un algoritmo in grado di riconoscere la terminologia medica nelle risposte del LLM e di confrontare le frasi con un grafo di conoscenza biomedica validato. Questo sistema segnalerebbe le frasi non verificabili per un esame umano. Sebbene non riesca a individuare tutta la disinformazione medica, ne segnala una percentuale molto elevata.

Questo strumento potrebbe rivelarsi utile per validare le risposte di futuri LLM focalizzati sulla medicina. Tuttavia, non risolve alcuni dei problemi che già affrontiamo, a cui lo studio accenna senza affrontarli direttamente. Primo fra tutti, la maggior parte delle persone, non essendo specialisti in medicina, tenderà a ottenere informazioni da LLM generalisti, non sottoposti a test di accuratezza medica. Questo è sempre più vero man mano che gli LLM vengono integrati nei servizi di ricerca su Internet.

Inoltre, questi modelli sono tipicamente addestrati sull'intera rete, che contiene una quantità enorme di cattiva informazione medica. I ricercatori riconoscono quello che definiscono un avvelenamento "accidentale" dei dati dovuto alla "diffusa disinformazione online esistente". Ma gran parte di queste informazioni "accidentali" è stata in realtà prodotta intenzionalmente, come parte di una truffa medica o per promuovere un'agenda politica. Una volta che le persone si renderanno conto che può essere utilizzata per perseguire questi stessi obiettivi influenzando il comportamento degli LLM, è probabile che la sua frequenza aumenti.

Infine, anche le migliori fonti di dati curate da esperti umani, come PubMed, soffrono del problema della disinformazione. La letteratura medica è piena di idee promettenti che non hanno mai dato risultati concreti, e di trattamenti e test obsoleti che sono stati sostituiti da approcci più solidamente basati sulle prove.

Fonte dell'articolo: arstechnica.com

Leggi altri articoli

👋 Partecipa alla discussione! Scopri le ultime novità che abbiamo riservato per te!

0 Commenti

⚠️ Stai commentando come Ospite . Vuoi accedere?

Invia

Per commentare come utente ospite, clicca triangoli

Cliccati: 0 /

Reset

Questa funzionalità è attualmente in beta, se trovi qualche errore segnalacelo.

Segui questa discussione
Advertisement

Non perdere gli ultimi aggiornamenti

Newsletter Telegram

I più letti di oggi


  • #1
    Io non credo più che GTA 6 uscirà nel 2026
  • #2
    Addio limiti ottici: arrivano i materiali giromorfi
  • #3
    Il 6G abbatterà ogni limite di copertura
  • #4
    NVIDIA frena le RTX 50 SUPER per la crisi GDDR7
  • #5
    GTA 6: il sito ufficiale conferma uscita solo per console
  • #6
    Per colpa dell'Europa Apple Watch verrà castrato con iOS 26.2
Articolo 1 di 3
iOS 26.1: ecco come regolare la trasparenza del Liquid Glass
iOS 26.1 permette di regolare la trasparenza del design Liquid Glass, superando i problemi di leggibilità lamentati dagli utenti.
Immagine di iOS 26.1: ecco come regolare la trasparenza del Liquid Glass
Leggi questo articolo
Articolo 2 di 3
Per colpa dell'Europa Apple Watch verrà castrato con iOS 26.2
Apple rimuove la sincronizzazione automatica delle reti Wi-Fi tra iPhone e Apple Watch nell'UE con iOS 26.2, in risposta alle richieste della UE.
Immagine di Per colpa dell'Europa Apple Watch verrà castrato con iOS 26.2
4
Leggi questo articolo
Articolo 3 di 3
Migliori schede madri gaming (novembre 2025)
In cerca della vostra prossima scheda madre gaming? Grazie a questa guida potrete fare la scelta giusta, sia che siate possessori di CPU AMD che Intel!
Immagine di Migliori schede madri gaming (novembre 2025)
1
Leggi questo articolo
Advertisement
Advertisement

Advertisement

Footer
Tom's Hardware Logo

 
Contatti
  • Contattaci
  • Feed RSS
Legale
  • Chi siamo
  • Privacy
  • Cookie
  • Affiliazione Commerciale
Altri link
  • Forum
Il Network 3Labs Network Logo
  • Tom's Hardware
  • SpazioGames
  • CulturaPop
  • Data4Biz
  • TechRadar
  • SosHomeGarden
  • Aibay

Tom's Hardware - Testata giornalistica associata all'USPI Unione Stampa Periodica Italiana, registrata presso il Tribunale di Milano, nr. 285 del 9/9/2013 - Direttore: Andrea Ferrario

3LABS S.R.L. • Via Pietro Paleocapa 1 - Milano (MI) 20121
CF/P.IVA: 04146420965 - REA: MI - 1729249 - Capitale Sociale: 10.000 euro

© 2025 3Labs Srl. Tutti i diritti riservati.