Le big tech violano il diritto d'autore per far fronte alla scarsità di dati

Se c'è una cosa che l'IA ci ha insegnato e su cui tutti possono concordare è che il web non è così grande come pensavamo.

OpenAI, Meta, Google e le altre big tech che stanno investendo sull'intelligenza artificiale si sono rese conto, sviluppando modelli sempre più ampi, che i dati a disposizione per l'addestramento hanno cominciato a scarseggiare pochi mesi dopo l'esplosione dell'IA generativa.

In un interessante approfondimento per il New York Times, i giornalisti Cade Metz, Cecilia Kang, Sheera Frenkel, Stuart A. Thompson e Nico Grant hanno spiegato che, per far fronte a questa importante carenza di informazioni, le compagnie di IA sarebbero ricorse a metodi che violavano il diritto d'autore e le policy aziendali pur di non perdere il proprio vantaggio sul mercato.

Secondo alcuni dipendenti di OpenAI, la compagnia avrebbe utilizzato Whisper, tool in grado di trascrivere l'audio dei video YouTube, per generare nuovi testi con cui addestrare GPT-4. OpenAI avrebbe trascritto più di un milione di ore di video violando le regole di YouTube che proibiscono l'uso dei suoi video per applicazioni che sono "indipendenti" dalla piattaforma.

Pexels

Anche Google, stando a diverse fonti interne, avrebbe usato i video di YouTube per generare nuovi testi, violando il copyright. L'anno scorso la compagnia ha anche modificato i suoi termini di servizio con l'obiettivo di poter usare i documenti pubblici e le revisioni su Maps per addestrare i suoi modelli, secondo quanto rivelato dal team di privacy di Google.

I modelli di IA stanno diventando sempre più dipendenti dalle informazioni presenti online, siano esse articoli, post di blog, commenti o podcast, e le big tech devono trovare una soluzione alla mancanza di dati il prima possibile: secondo l'istituto di ricerca Epoch, le informazioni di alta qualità presenti sul web finiranno entro il 2026. L'IA sta consumando dati molto più velocemente di quanto riesca a produrne.

L'uso di testi, foto e video presenti sul web ha scatenato un'ondata di azioni legali da parte dei creator. Tutti ricordiamo l'attacco del New York Times nei confronti di Microsoft e OpenAI, quando ha accusato le due compagnie di aver usato i suoi articoli senza permesso per addestrare l'IA, ma la testata non è la sola: creator, autori e associazioni di categoria di tutto il mondo hanno condannato l'uso improprio dei contenuti presenti sul web da parte delle big tech.

OpenAI e Google hanno trascritto milioni di video

I ricercatori di OpenAI hanno raccolto dati per anni, pulendoli e dandoli in pasto ai modelli della compagnia. Le informazioni provenivano da repository GitHub, database pubblici e siti di test scolastici come Quizlet. A fine 2021, però, le scorte si sono esaurite, almeno secondo otto persone vicine alla compagnia.

La disperazione per la mancanza di dati ha portato OpenAI a decidere di trascrivere podcast, audiolibri e video YouTube con Whisper, un tool di speech recognition usato inizialmente solo internamente. Diverse fonti hanno rivelato al NY Times che la compagnia avrebbe usato Whisper per trascrivere milioni di video di YouTube, violando il regolamento della piattaforma. Così è nato GPT-4.

Pixabay

Anche Google avrebbe seguito l'esempio di OpenAI, sostengono alcuni dipendenti della compagnia. Anche se Google può accedere ai contenuti caricati dagli utenti per sviluppare nuove feature, le policy non prevedono l'utilizzo dei dati per lo sviluppo di un servizio commerciale (in questo caso un chatbot) esterno alla piattaforma video.

Ma a quanto pare questi dati non erano ancora sufficienti, quindi Google ha deciso di raccogliere testi da Google Docs e altre sue applicazioni gratuite, sebbene la policy aziendale vieti l'uso di questi dati. Superare il problema è stato molto semplice: è bastato modificare l'accordo di privacy dando alla compagnia maggiori libertà sui contenuti degli utenti.

Ai dipendenti è stato detto che Google voleva utilizzare i contenuti pubblici di Google Docs, Google Sheets e applicazioni correlate per una serie di prodotti di intelligenza artificiale. I collaboratori hanno poi dichiarato di non sapere se l'azienda avesse già precedentemente addestrato l'IA su tali dati.

Il team per la privacy ha modificato i termini di servizio in modo che Google potesse attingere ai dati per addestrare i suoi modelli di IA. Secondo alcuni dipendenti in contatto col NY Times, al team è stato detto specificamente di rilasciare la nuova policy nel fine settimana del 4 luglio, quando, negli Stati Uniti, si sarebbe festeggiato il giorno dell'Indipendenza e le persone sarebbero state "più concentrate sulle vacanze".

Pixabay

Anche Meta combatte per i dati

Sin dall'uscita di ChatGPT a fine 2022, Meta ha cercato di superare le capacità del chatbot, ma a un certo punto si è trovata ad affrontare lo stesso problema di OpenAI: non c'erano abbastanza dati.

Stando ad alcune conversazioni interne condivise col NY Times da un ingegnere di Meta, la compagnia aveva utilizzato ogni libro, saggio e articolo in inglese presente sul web per addestrare il proprio modello senza però uguagliare le capacità di GPT.

Zuckerberg premeva sulla necessità di raggiungere e superare la competizione, ma di fronte alla possibilità di pagare per acquistare i libri o di comprare la Simon & Schuster, publisher che ha pubblicato anche i libri di Stephen King, l'AD di Meta si sarebbe opposto. Così è iniziata anche per Meta la corsa per la raccolta di dati, in modi non sempre legali.

La compagnia avrebbe riassunto libri, saggi e altre opere da Internet senza autorizzazione e i manager hanno discusso la possibilità di usarne molte altre, anche se ciò significava affrontare cause legali. Secondo le registrazioni, un avvocato ha messo in guardia la società dai problemi "etici" legati all'appropriazione della proprietà intellettuale dei creator, ma è stato ignorato.

Durante le discussioni, i dirigenti di Meta hanno anche spiegato di aver assunto degli appaltatori in Africa per aggregare riassunti di narrativa e saggistica. I riassunti includevano contenuti protetti da copyright "perché non abbiamo modo di non raccoglierli" avrebbe detto un manager in una riunione.

Secondo le registrazioni condivise col NY Times, i dipendenti si sono detti preoccupati di utilizzare i contenuti sul web senza permesso e senza pagare i creator, ma i manager non avrebbero dato peso a queste considerazioni.

Pexels

L'uso di dati sintetici

Al momento l'unica soluzione possibile e legale sembra essere l'uso di dati sintetici. Sam Altman ha parlato a nome di OpenAI e delle altre compagnie spiegando che dal momento che i modelli generano testi simili a quelli umani, allora i sistemi di IA possono essere usati per creare contenuti su cui addestrare nuove e migliori versioni dei modelli.

Non è la prima volta che si parla di dati sintetici: gli autori del NY Times spiegano che i ricercatori di IA hanno cercato di lavorarci per anni, ma non è semplice costruire un sistema di IA in grado di addestrarsi da solo.

Il problema principale è legato al fatto che questi modelli possono migliorare solo in modo limitato e finire un circolo vizioso, ripetendo sempre gli stessi errori.

Una possibile soluzione consisterebbe allora nel far "collaborare" due modelli: uno produce i dati, mentre l'altro valuta le informazioni generate per distinguere quelle di qualità da quelle di scarso valore.

Altman ha affermato che il lavoro in questo senso sta procedendo a gonfie vele, ma il mondo dei ricercatori è diviso a metà: c'è chi ritiene che questa strada possa avere successo e chi invece sostiene che il rischio di errori non verrà mai ridotto a sufficienza.