Adobe si trova al centro di una nuova controversia legale che solleva interrogativi cruciali sul confine tra innovazione nell'intelligenza artificiale e rispetto della proprietà intellettuale. L'azienda californiana, che negli ultimi anni ha accelerato massivamente i propri investimenti nel campo dell'AI con servizi come Firefly, è ora accusata di aver addestrato uno dei suoi modelli linguistici utilizzando dataset contenenti opere protette da copyright senza alcuna autorizzazione. La causa collettiva depositata in Oregon potrebbe rappresentare l'ennesimo capitolo di una battaglia legale che sta ridefinendo le regole dello sviluppo tecnologico nel settore dell'intelligenza artificiale generativa.
Al centro della controversia c'è SlimLM, una serie di modelli linguistici di dimensioni ridotte che Adobe ha sviluppato specificamente per ottimizzare l'assistenza documentale su dispositivi mobili. Secondo la documentazione ufficiale dell'azienda, SlimLM è stato pre-addestrato su SlimPajama-627B, un dataset open-source multi-corpus rilasciato da Cerebras nel giugno 2023. La causa, intentata dall'autrice Elizabeth Lyon che ha scritto numerose guide per la scrittura non-fiction, sostiene che questo dataset contenesse materiale protetto da copyright prelevato da fonti non autorizzate.
La questione tecnica ruota attorno a una catena di derivazioni tra dataset. SlimPajama sarebbe stato creato copiando e manipolando il dataset RedPajama, che a sua volta include la famigerata collezione Books3. Quest'ultima rappresenta un archivio di circa 191.000 libri che è diventato una fonte ricorrente di problemi legali per l'industria tech: "Poiché è una copia derivata del dataset RedPajama, SlimPajama contiene il dataset Books3, incluse le opere protette da copyright dell'attrice e dei membri della classe", afferma il documento legale depositato presso il tribunale.
Il caso Adobe si inserisce in un contesto molto più ampio di contenziosi che stanno attraversando l'intero settore tecnologico. RedPajama è stato citato in numerose cause legali: a settembre Apple è stata accusata di aver utilizzato materiale protetto da copyright per addestrare Apple Intelligence, mentre a ottobre Salesforce ha affrontato accuse simili. La situazione evidenzia un problema strutturale nello sviluppo dei sistemi di AI generativa, dove i confini tra utilizzo legittimo di dati pubblici e violazione della proprietà intellettuale restano sfumati e controversi.
Le dimensioni economiche di queste controversie stanno diventando significative. A settembre Anthropic ha accettato di versare 1,5 miliardi di dollari a un gruppo di autori che avevano citato in giudizio l'azienda per l'uso non autorizzato delle loro opere nell'addestramento di Claude, il chatbot concorrente di ChatGPT. Quel caso è stato considerato dagli analisti legali come un potenziale punto di svolta, stabilendo un precedente che potrebbe influenzare l'intero panorama dei modelli linguistici di grandi dimensioni e il loro training.
Per Adobe, le implicazioni potrebbero essere particolarmente delicate. L'azienda ha costruito gran parte della sua strategia recente sull'integrazione dell'intelligenza artificiale nei suoi prodotti flagship, dalla suite Creative Cloud a Document Cloud. Firefly, lanciato nel 2023, è stato presentato come un sistema addestrato su contenuti per cui Adobe dispone delle licenze appropriate, proprio per evitare questo tipo di problematiche. L'accusa relativa a SlimLM potrebbe quindi sollevare interrogativi sulla coerenza dell'approccio aziendale ai dati di training.