ChatGPT fa pirateria? non potrebbe esistere senza materiale protetto da copyright

OpenAI ha dichiarato che la creazione di modelli linguistici avanzati, come il suo GPT-4, fondamentale per ChatGPT, è impraticabile senza l'uso di materiale coperto da copyright. La crescente pressione sulle aziende di intelligenza artificiale, evidenziata dal recente caso legale con il New York Times, solleva dubbi sulla legalità dell'utilizzo di opere protette per addestrare tali sistemi.

OpenAI ammette che quei dati sono necessari, ma non sembra disposta a pagare per usarli.

Ed è proprio questo il punto di un'azione legale intentata dal New York Times, che ha accusato OpenAI e Microsoft (importante investitore in OpenAI) di "uso illecito" del suo lavoro per sviluppare prodotti come il chatbot ChatGPT. Il cuore della questione sarebbe che OpenAI ha usato testi protetti da copyright senza autorizzazione e senza pagare il dovuto.

Il New York Times sostiene che l'utilizzo di OpenAI del suo materiale costituisce una violazione dei diritti d'autore, richiedendo un risarcimento legale. OpenAI ha risposto affermando che la creazione di modelli linguistici avanzati come GPT-4 richiede accesso a materiale coperto da copyright.

OpenAI sostiene che, data la vastità della copertura del copyright su espressioni umane come blog, fotografie, codice software e documenti governativi, sarebbe impossibile sviluppare tali modelli senza l'utilizzo di tali materiali.

La difesa di OpenAI si basa sulla convinzione che l'utilizzo di materiale coperto da copyright rientri nella dottrina legale del "fair use", che consentirebbe l'utilizzo in determinate circostanze senza richiedere il permesso del proprietario e senza pagare licenze. Tuttavia il detentore dei diritti può contestare tale affermazione, e chiedere a un giudice di stabilire se si tratti di Fair Use oppure no.

OpenAI (ma anche Anthropic e altri) sta affrontando più di una causa su questo argomento, e non è ancora chiaro quale sarà il risultato finale.

Perché serve il materiale protetto?

Naturalmente il Web e Internet sono strapieni di materiale gratuito, sui cui non grava alcuna licenza e alcun costo. Ci sono milioni di blog personali e account social utilizzabili più o meno liberamente, e migliaia di libri ad accesso libero. Tuttavia sembra proprio che solo il materiale con copyright sia davvero di qualità.

OpenAI sottolinea che limitare i dati di addestramento a opere nel pubblico dominio sarebbe insufficiente per sviluppare sistemi di IA adatti alle esigenze moderne.

La controversia legale con il New York Times rappresenta solo una delle molte sfide legali affrontate da OpenAI, con autori come John Grisham e George RR Martin che accusano l'azienda di "furto su vasta scala".

Sicuramente OpenAI e Microsoft potrebbero permettersi di pagare una multa, o anche di pagare parecchie multe finché lo ritengono opportuno. Qualcosa di simile a quanto fece Microsoft ai tempi delle denunce riguardanti Internet Explorer.

Tuttavia, se si dovesse stabilire che OpenAI deve pagare il permesso per tutte le opere che ha usato, e che il pagamento è dovuto ogni volta che qualcuno usa ChatGPT, allora la cifra potrebbe diventare astronomica in un batter d’occhio, e mettere fine (temporaneamente) al fenomeno dei Chatbot intelligenti ed economici.

Si stima infatti che ChatGPT venga usato circa 10 milioni di volte al giorno, a cui bisognerebbe aggiungere tutti i servizi che si affidano alle sue API. Se OpenAI dovesse pagare anche solo 5 centesimi per ognuno di quegli utilizzi sarebbe mezzo milione al giorno.

D’altra parte, tagliandola un po’ con l’accetta, qui si sta parlando di pirateria. E quando si tratta di pirateria negli ultimi anni istituzioni e aziende hanno sempre applicato il pugno di ferro, e raramente i pirati se la sono cavata parlando di fair use.

Certo, i “pirati” finiti sul banco degli imputati non erano aziende multimilionarie proprietarie di una tecnologia rivoluzionaria. Le cose quindi potrebbero forse andare diversamente.

Fonte dell'articolo: www.theguardian.com