OpenAI si trova al centro di una battaglia legale sempre più complessa che potrebbe ridefinire i confini del fair use nell'era dell'intelligenza artificiale generativa. La magistrata statunitense Ona Wang ha ordinato al produttore di ChatGPT di consegnare oltre 20 milioni di log di conversazioni degli utenti nell'ambito della causa intentata dal New York Times, segnando un punto di svolta significativo in un contenzioso che vede contrapposti i giganti dell'AI e l'industria editoriale.
La richiesta di produrre milioni di log rappresenta una sfida diretta alla strategia difensiva di OpenAI, che da anni sostiene che lo scraping di contenuti online per addestrare modelli linguistici rientri nel fair use, la dottrina legale statunitense che permette l'utilizzo limitato di materiale protetto da copyright senza autorizzazione. L'azienda di Sam Altman aveva inizialmente respinto la richiesta definendola eccessiva e sostenendo che avrebbe violato le "protezioni della privacy consolidate da tempo" degli utenti di ChatGPT. La giudice Wang ha però respinto questa argomentazione, affermando che esistono "molteplici livelli di protezione in questo caso proprio a causa della natura altamente sensibile e privata di gran parte delle prove raccolte".
Il contesto legale si è rivelato finora altalenante per OpenAI. Nel 2024, un giudice federale di New York ha respinto una causa per violazione del copyright intentata da Raw Story e AlterNet, evidenziando che gli editori non erano riusciti a dimostrare con precisione da dove OpenAI avesse ottenuto i contenuti utilizzati per addestrare ChatGPT. La giudice Colleen McMahon ha chiarito la questione di fondo con una dichiarazione significativa: "Sia chiaro quale sia veramente la posta in gioco. Il danno presunto per cui i querelanti cercano realmente riparazione non è l'esclusione di informazioni sulla gestione dei diritti d'autore, ma l'uso degli articoli dei querelanti per sviluppare ChatGPT senza compenso".
OpenAI ha già presentato ricorso contro l'ordine della magistrata Wang, tentando di evitare la consegna dei 20 milioni di log al giudice distrettuale Sidney Stein che supervisiona il caso. Questa mossa difensiva assume un significato particolare alla luce delle precedenti dichiarazioni del CEO Sam Altman, che aveva ammesso pubblicamente come lo sviluppo di strumenti simili a ChatGPT senza l'utilizzo di contenuti protetti da copyright sia virtualmente impossibile. Un'ammissione che, nel contesto dell'attuale battaglia legale, potrebbe rivelarsi particolarmente problematica per la difesa dell'azienda.
La questione assume rilevanza ancora maggiore considerando le recenti segnalazioni secondo cui i principali laboratori di AI potrebbero trovarsi nell'impossibilità di far progredire ulteriormente i loro modelli proprio a causa della scarsità di contenuti di addestramento di alta qualità. Questa carenza di dati si inserisce in un momento delicato per OpenAI, che starebbe pianificando l'introduzione di pubblicità all'interno di ChatGPT, suggerendo una pressione crescente sulla sostenibilità economica del modello di business attuale.