Meta ha piratato migliaia di libri, e non vuole pagare un centesimo

L'utilizzo di materiale proprietario nell'addestramento di modelli AI avanzati è diventato una questione controversa, portando molte aziende a dover affrontare sfide legali da parte di autori e organizzazioni media (l'altro giorno vi abbiamo parlato della questione per quanto riguarda OpenAI e il suo ChatGPT). Ebbene, di recente Meta ha ammesso di utilizzare il noto dataset "pirata" Books3, ma mostra riluttanza nel compensare adeguatamente gli scrittori.

Un gruppo di autori ha intentato una causa legale contro l'azienda, accusando l'uso illecito di materiale coperto da copyright nello sviluppo dei suoi modelli linguistici di grandi dimensioni, Llama 1 e Llama 2. In risposta, Facebook ha ammesso che i suoi modelli LLM sono stati addestrati utilizzando libri coperti da copyright.

Meta ha, infatti, confermato l'utilizzo del dataset Books3, tra molti altri materiali, per addestrare i modelli Llama 1 e Llama 2. Books3 è un set ben noto che include una vasta collezione di oltre 195.000 libri in formato testo, con una dimensione totale di quasi 37 GB. Creato nel 2020 dal ricercatore di intelligenza artificiale Shawn Presser, l'archivio mirava a fornire una migliore fonte di dati per migliorare gli algoritmi di apprendimento automatico.

L'ampia disponibilità del dataset Books3 ha portato al suo diffuso utilizzo nell'addestramento AI da parte di numerosi ricercatori. Grandi aziende tecnologiche, inclusa Meta, hanno sfruttato Books3 e altri dataset controversi per i propri prodotti AI commerciali.

Nonostante l'ammissione dell'uso di parti del dataset Books3, Meta sostiene che l'utilizzo di opere coperte da copyright per addestrare i modelli LLM non richieda "consenso, riconoscimento o compensazione". L'azienda contesta le accuse di violazione del copyright, sostenendo che eventuali copie non autorizzate di opere coperte da copyright in Books3 dovrebbero essere considerate uso lecito.

Inoltre, Meta contesta la validità della causa legale come una class action, rifiutandosi di fornire qualsiasi "relief" monetario agli autori che citano in giudizio o a coloro coinvolti nella controversia su Books3. Nel 2023, il dataset, che include materiale coperto da copyright proveniente dal sito pirata Bibliotik, è stato oggetto di attenzione da parte del gruppo danese anti-pirateria Rights Alliance, che ha richiesto il divieto dell'archiviazione digitale del dataset Books3 utilizzando avvisi DMCA per imporre tali rimozioni.