Le IA stanno impazzendo, senza esseri umani non possono sopravvivere

Il meccanismo MAD descrive come le moderne IA si stiano alimentando di dati artificiali, con un conseguente declino della qualità dell'outpu

Avatar di Valerio Porcu

a cura di Valerio Porcu

Senior Editor

I ricercatori della Rice e della Stanford University hanno scoperto che alimentare modelli IA con contenuti generati dalle IA stessa sembra causare un drastico calo nella qualità dei risultati. Il problema individuato è stato ribattezzato MAD, un acronimo che lascia poco spazio alle interpretazioni.

Un risultato che non dovrebbe sorprendere, visto che in un certo senso conferma un principio già noto, vale a dire garbage in, garbage out: se il tuo dato in ingresso è di bassa qualità, lo sarà anche quello in uscita. Si tratta i un concetto fondamentale, uno dei primi in cui si incappa quando inizi a occuparti di algoritmi.

Solo che negli ultimi mesi abbiamo cominciato a credere che ChatGPT, Midjourney, Bard, DALL-E e così via siano in grado di produrre output di buona qualità. È vero con una serie di “ma” e di “se”.

Vista questa diffusa percezione e gli enormi progressi degli ultimi tempi, d’altra parte, non si poteva non provarci, mettendo in moto quello che secondo i ricercatori è un “ciclo autofagico le cui proprietà sono poco conosciute".

"La nostra conclusione principale in tutti gli scenari è che senza un numero sufficiente di dati reali freschi in ogni generazione di un ciclo autofagico, i futuri modelli generativi sono destinati a diminuire progressivamente la loro qualità (precisione) o diversità (richiamo)", hanno aggiunto.

Questa condizione è stata definita "Model Autophagy Disorder". L’acronimo risultante, MAD, indica in inglese una forma di stupidità, incapacità di pensare o ragionare con lucidità, fino qualche volta a diventare. Per comprendere il termine si può pensare al tipico personaggio dello scienziato pazzo, il mad scientist appunto, o alla canzone dei Queen I’m Going Slightly Mad

Quei dati reali freschi di cui le IA hanno bisogno sono informazioni create dagli esseri umani, siano essi testi o immagini. In altre parole, gli algoritmi generativi hanno bisogno di noi, il che è in qualche modo una consolazione se pensiamo a quante volte abbiamo visto e sentito come le IA stanno distruggendo posti di lavoro - e a lungo termine minacciando la nostra stessa esistenza.

Secondo i ricercatori, se un algoritmo viene addestrato ripetutamente su contenuti artificiali, le informazioni periferiche e meno rappresentate ai margini dei dati di addestramento di un modello inizieranno a scomparire. Il modello inizierà quindi ad attingere da dati sempre più convergenti e meno variegati e, di conseguenza, inizierà presto a sgretolarsi su se stesso.

Il documento non è ancora stato sottoposto a peer review e i risultati potrebbero ancora essere smentiti. Tuttavia è un’indicazione importante per quelle persone e aziende che stanno già tentando di costruire prodotti AI finali.

Un esempio potrebbe essere Google: l’azienda sta preparando una nuova versione del motore di ricerca, dove il primo risultato è un testo generato dalla sua IA. In teoria si basa su dati umani presi dai vari siti web (con notevoli implicazioni etiche e legali), ma se quegli stessi siti si mettono a integrare testi generati, la frittata è presto fatta.

Leggi anche: Google Bard arriva in Italia

Si tratta di una possibilità tutt’altro che remota: i moderni algoritmi sono continuamente alla ricerca di nuovi dati su Internet - una cosa che tra l’altro sta portando a conseguenze legali non trascurabili. Allo stesso tempo, in Rete stiamo vedendo sempre più contenuti generati da IA, quindi non è da escludere che il meccanismo MAD si inneschi in modo spontaneo. Una cosa che, si ritiene, sta già succedendo.

"Poiché i dataset di addestramento per i modelli generativi di IA tendono a provenire da Internet, i modelli di IA di oggi vengono inconsapevolmente addestrati su quantità crescenti di dati sintetizzati dall'IA", scrivono i ricercatori nel documento, aggiungendo che "il popolare dataset LAION-5B, utilizzato per addestrare modelli testo-immagine all'avanguardia come Stable Diffusion, contiene immagini sintetiche campionate da diverse generazioni precedenti di modelli generativi".

"Le fonti di testo un tempo umane sono ora sempre più spesso create da modelli generativi di IA, dalle recensioni degli utenti ai siti web di notizie, spesso senza alcuna indicazione che il testo è sintetizzato", aggiungono. "Con la rapida crescita dell'uso dei modelli generativi, questa situazione non potrà che accelerare".

Dunque, andiamo verso un mondo pieno di IA impazzite? Può anche darsi, ma saremo capaci di rendercene conto? Dopotutto noi esseri umani siamo già abbastanza bravi nel prendere dei folli (in carne ed ossa) per poi eleggerli a nostri leader. Se fossero della macchine, ci sarebbe una grossa differenza?