OpenAI rischia di trovarsi in una posizione estremamente delicata nella battaglia legale intentata da un gruppo di autori che accusano l'azienda di aver addestrato ChatGPT su opere protette da copyright senza autorizzazione. Al centro della controversia c'è l'eliminazione di due dataset controversi contenenti libri piratati, una mossa che potrebbe trasformarsi in una pistola fumante capace di far lievitare le sanzioni fino a 150.000 dollari per ogni opera violata qualora venisse dimostrata la violazione intenzionale del copyright. La giudice distrettuale Ona Wang ha recentemente ordinato a OpenAI di consegnare tutte le comunicazioni interne relative alla cancellazione di questi archivi, segnando un punto di svolta in una causa che potrebbe ridefinire i confini legali dell'addestramento dei modelli di intelligenza artificiale.
I dataset in questione, denominati "Books 1" e "Books 2", furono creati nel 2021 da dipendenti di OpenAI attraverso operazioni di scraping del web, recuperando la maggior parte dei contenuti da Library Genesis (LibGen), una nota biblioteca digitale pirata. OpenAI ha confermato di aver eliminato questi archivi prima del lancio pubblico di ChatGPT nel 2022, sostenendo che i dataset erano caduti in disuso già nello stesso anno della loro creazione, motivando così la decisione di cancellarli definitivamente.
La versione ufficiale di OpenAI, tuttavia, non ha convinto gli autori querelanti né la giudice Wang. Il nodo della questione riguarda le apparenti contraddizioni nelle dichiarazioni dell'azienda: inizialmente OpenAI aveva indicato il "non utilizzo" come ragione della cancellazione, salvo poi fare marcia indietro sostenendo che tutte le motivazioni dovrebbero essere protette dal segreto professionale tra avvocato e cliente. Questo cambio di rotta è avvenuto proprio dopo che il tribunale aveva accolto le richieste degli autori di esaminare i messaggi interni di OpenAI relativi al presunto "non utilizzo" dei dataset.
La giudice Wang ha smontato la strategia difensiva di OpenAI con un'argomentazione tagliente: l'azienda non può definire il "non utilizzo" come una "ragione" della cancellazione e contemporaneamente sostenere che tale ragione sia coperta da privilegio legale. La sentenza ordina a OpenAI di consegnare entro l'8 dicembre tutte le comunicazioni con i legali interni riguardanti la cancellazione dei dataset, oltre a tutti i riferimenti interni a LibGen che l'azienda aveva oscurato o trattenuto invocando il privilegio avvocato-cliente.
L'analisi della giudice sui messaggi Slack di OpenAI ha rivelato dettagli significativi. Un canale interno inizialmente chiamato "excise-libgen" (letteralmente "rimuovere LibGen") venne successivamente rinominato "project-clear" su suggerimento del legale interno Jason Kwon. Wang ha stabilito che la maggior parte di queste comunicazioni non può essere considerata privilegiata poiché "palesemente priva di qualsiasi richiesta di consulenza legale", con i consulenti legali che raramente sono intervenuti nelle discussioni.
Le implicazioni per OpenAI sono potenzialmente devastanti dal punto di vista economico. Nel diritto d'autore statunitense, dimostrare la volontarietà della violazione può far schizzare le sanzioni da poche migliaia a 150.000 dollari per singola opera protetta. Gli autori ritengono che le comunicazioni interne potrebbero rivelare che OpenAI abbia deciso di abbandonare i dataset per timori legali, o addirittura che continui a utilizzarli sotto denominazioni diverse per mascherare ulteriori infrazioni.
Particolarmente problematica per OpenAI è l'interpretazione fornita dalla giudice Wang di una precedente sentenza nel caso Anthropic. OpenAI aveva citato quella decisione sostenendo che il giudice William Alsup avesse ritenuto legale scaricare copie piratate di libri purché utilizzate per addestrare un modello linguistico. Wang ha bollato questa rappresentazione come "grossolanamente distorta", evidenziando che Alsup aveva invece espresso dubbi sul fatto che scaricare materiale da siti pirata potesse mai essere considerato necessario per un successivo fair use, quando lo stesso materiale era disponibile legalmente.
Un elemento chiave della disputa potrebbe essere la testimonianza di Dario Amodei, attuale CEO di Anthropic e ex dipendente di OpenAI, accusato di aver creato i dataset controversi durante il suo periodo in azienda. A marzo un giudice ha accolto la richiesta degli autori di deporre Amodei, che secondo i querelanti possiede informazioni cruciali sulla distruzione degli archivi. OpenAI ha già dichiarato di dissentire dalla sentenza e di voler presentare appello.