image/svg+xml
Logo Tom's Hardware
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Tom's Hardware Logo
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Forum
  • Sconti & Coupon
% Black Friday
%
Accedi a Xenforo
Immagine di Corri: il monitor OLED è ancora sotto i 500€ all’ultimo giorno di Black Friday Corri: il monitor OLED è ancora sotto i 500€ all’ultimo...
Immagine di USA, scoperta la più grande riserva di litio al mondo USA, scoperta la più grande riserva di litio al mondo...

OpenAI nei guai: i dataset pirata diventano una bomba legale

La giudice Wang impone a OpenAI di consegnare i messaggi interni sulla cancellazione dei dataset piratati: rischiano sanzioni fino a 150.000$ a libro.

Advertisement

Avatar di Antonello Buzzi

a cura di Antonello Buzzi

Senior Editor @Tom's Hardware Italia

Pubblicato il 02/12/2025 alle 11:35

La notizia in un minuto

  • OpenAI rischia sanzioni fino a 150.000 dollari per opera violata dopo l'eliminazione di due dataset contenenti libri piratati da Library Genesis, usati per addestrare ChatGPT
  • La giudice Wang ha ordinato la consegna delle comunicazioni interne entro l'8 dicembre, smontando la difesa basata sul privilegio avvocato-cliente e rilevando contraddizioni nelle motivazioni della cancellazione
  • Il caso potrebbe ridefinire i confini legali dell'addestramento AI, con parallelismi alla causa Anthropic conclusa con il più grande accordo transattivo mai visto nelle class action sul copyright

Riassunto generato con l’IA. Potrebbe non essere accurato.

Quando acquisti tramite i link sul nostro sito, potremmo guadagnare una commissione di affiliazione. Scopri di più

OpenAI rischia di trovarsi in una posizione estremamente delicata nella battaglia legale intentata da un gruppo di autori che accusano l'azienda di aver addestrato ChatGPT su opere protette da copyright senza autorizzazione. Al centro della controversia c'è l'eliminazione di due dataset controversi contenenti libri piratati, una mossa che potrebbe trasformarsi in una pistola fumante capace di far lievitare le sanzioni fino a 150.000 dollari per ogni opera violata qualora venisse dimostrata la violazione intenzionale del copyright. La giudice distrettuale Ona Wang ha recentemente ordinato a OpenAI di consegnare tutte le comunicazioni interne relative alla cancellazione di questi archivi, segnando un punto di svolta in una causa che potrebbe ridefinire i confini legali dell'addestramento dei modelli di intelligenza artificiale.

I dataset in questione, denominati "Books 1" e "Books 2", furono creati nel 2021 da dipendenti di OpenAI attraverso operazioni di scraping del web, recuperando la maggior parte dei contenuti da Library Genesis (LibGen), una nota biblioteca digitale pirata. OpenAI ha confermato di aver eliminato questi archivi prima del lancio pubblico di ChatGPT nel 2022, sostenendo che i dataset erano caduti in disuso già nello stesso anno della loro creazione, motivando così la decisione di cancellarli definitivamente.

AI Week
Codice sconto copiato!
AI Week Logo

Se l'Intelligenza Artificiale è il tuo futuro, iscriviti subito alla AI Week 2026 per approfondire tutti questi temi con gli esperti.

  1. Utilizza il codice sconto esclusivo per i lettori di Tom's Hardware:
  2. Acquista il tuo biglietto prima che sia troppo tardi!
    Iscriviti ora!

La versione ufficiale di OpenAI, tuttavia, non ha convinto gli autori querelanti né la giudice Wang. Il nodo della questione riguarda le apparenti contraddizioni nelle dichiarazioni dell'azienda: inizialmente OpenAI aveva indicato il "non utilizzo" come ragione della cancellazione, salvo poi fare marcia indietro sostenendo che tutte le motivazioni dovrebbero essere protette dal segreto professionale tra avvocato e cliente. Questo cambio di rotta è avvenuto proprio dopo che il tribunale aveva accolto le richieste degli autori di esaminare i messaggi interni di OpenAI relativi al presunto "non utilizzo" dei dataset.

La giudice Wang ha smontato la strategia difensiva di OpenAI con un'argomentazione tagliente: l'azienda non può definire il "non utilizzo" come una "ragione" della cancellazione e contemporaneamente sostenere che tale ragione sia coperta da privilegio legale. La sentenza ordina a OpenAI di consegnare entro l'8 dicembre tutte le comunicazioni con i legali interni riguardanti la cancellazione dei dataset, oltre a tutti i riferimenti interni a LibGen che l'azienda aveva oscurato o trattenuto invocando il privilegio avvocato-cliente.

In caso di violazione intenzionale del copyright, un tribunale può aumentare le sanzioni fino a 150.000 dollari per ogni opera violata, se viene dimostrato che l'imputato era consapevole dell'attività di infrazione o agì con negligenza temeraria

L'analisi della giudice sui messaggi Slack di OpenAI ha rivelato dettagli significativi. Un canale interno inizialmente chiamato "excise-libgen" (letteralmente "rimuovere LibGen") venne successivamente rinominato "project-clear" su suggerimento del legale interno Jason Kwon. Wang ha stabilito che la maggior parte di queste comunicazioni non può essere considerata privilegiata poiché "palesemente priva di qualsiasi richiesta di consulenza legale", con i consulenti legali che raramente sono intervenuti nelle discussioni.

Le implicazioni per OpenAI sono potenzialmente devastanti dal punto di vista economico. Nel diritto d'autore statunitense, dimostrare la volontarietà della violazione può far schizzare le sanzioni da poche migliaia a 150.000 dollari per singola opera protetta. Gli autori ritengono che le comunicazioni interne potrebbero rivelare che OpenAI abbia deciso di abbandonare i dataset per timori legali, o addirittura che continui a utilizzarli sotto denominazioni diverse per mascherare ulteriori infrazioni.

Particolarmente problematica per OpenAI è l'interpretazione fornita dalla giudice Wang di una precedente sentenza nel caso Anthropic. OpenAI aveva citato quella decisione sostenendo che il giudice William Alsup avesse ritenuto legale scaricare copie piratate di libri purché utilizzate per addestrare un modello linguistico. Wang ha bollato questa rappresentazione come "grossolanamente distorta", evidenziando che Alsup aveva invece espresso dubbi sul fatto che scaricare materiale da siti pirata potesse mai essere considerato necessario per un successivo fair use, quando lo stesso materiale era disponibile legalmente.

Un elemento chiave della disputa potrebbe essere la testimonianza di Dario Amodei, attuale CEO di Anthropic e ex dipendente di OpenAI, accusato di aver creato i dataset controversi durante il suo periodo in azienda. A marzo un giudice ha accolto la richiesta degli autori di deporre Amodei, che secondo i querelanti possiede informazioni cruciali sulla distruzione degli archivi. OpenAI ha già dichiarato di dissentire dalla sentenza e di voler presentare appello.

Fonte dell'articolo: arstechnica.com

👋 Partecipa alla discussione! Scopri le ultime novità che abbiamo riservato per te!

0 Commenti

⚠️ Stai commentando come Ospite . Vuoi accedere?

Invia

Per commentare come utente ospite, clicca quadrati

Cliccati: 0 /

Reset

Questa funzionalità è attualmente in beta, se trovi qualche errore segnalacelo.

Segui questa discussione

Advertisement

Ti potrebbe interessare anche

USA, scoperta la più grande riserva di litio al mondo
1

Hardware

USA, scoperta la più grande riserva di litio al mondo

Di Antonello Buzzi
Corri: il monitor OLED è ancora sotto i 500€ all’ultimo giorno di Black Friday

Black Friday

Corri: il monitor OLED è ancora sotto i 500€ all’ultimo giorno di Black Friday

Di Dario De Vita
Black Friday ExpressVPN: attiva la promo più conveniente di sempre!

Sponsorizzato

Black Friday ExpressVPN: attiva la promo più conveniente di sempre!

Di Antonello Buzzi
Intel fabbricherà chip Apple M: via libera nel 2027
1

Hardware

Intel fabbricherà chip Apple M: via libera nel 2027

Di Antonello Buzzi
NVIDIA spinge sull’AI: “Niente più lavori non automatizzati”
2

Hardware

NVIDIA spinge sull’AI: “Niente più lavori non automatizzati”

Di Antonello Buzzi

Advertisement

Advertisement

Footer
Tom's Hardware Logo

 
Contatti
  • Contattaci
  • Feed RSS
Legale
  • Chi siamo
  • Privacy
  • Cookie
  • Affiliazione Commerciale
Altri link
  • Forum
Il Network 3Labs Network Logo
  • Tom's Hardware
  • SpazioGames
  • CulturaPop
  • Data4Biz
  • TechRadar
  • SosHomeGarden
  • Aibay

Tom's Hardware - Testata giornalistica associata all'USPI Unione Stampa Periodica Italiana, registrata presso il Tribunale di Milano, nr. 285 del 9/9/2013 - Direttore: Andrea Ferrario

3LABS S.R.L. • Via Pietro Paleocapa 1 - Milano (MI) 20121
CF/P.IVA: 04146420965 - REA: MI - 1729249 - Capitale Sociale: 10.000 euro

© 2025 3Labs Srl. Tutti i diritti riservati.