Reddit fa causa a Perplexity per furto contenuti

La piattaforma di social news Reddit ha deciso di passare alle vie legali contro l'intelligenza artificiale di nuova generazione, accusando Perplexity e tre fornitori di servizi di web scraping di aver orchestrato quello che definisce un sistema di furto di dati su scala industriale. L'azione legale rappresenta un nuovo capitolo nella battaglia sempre più accesa tra le piattaforme che ospitano contenuti generati dagli utenti e le aziende di intelligenza artificiale affamate di materiale per addestrare i propri modelli. La causa civile mira a bloccare quelle che Reddit descrive come pratiche sistematiche di elusione delle protezioni tecnologiche implementate per salvaguardare i propri contenuti.

Secondo la documentazione depositata in tribunale, Reddit avrebbe già tentato la via diplomatica inviando una lettera di diffida a Perplexity nel maggio 2024, chiedendo esplicitamente di interrompere l'estrazione non autorizzata dei propri dati. La risposta dell'azienda di intelligenza artificiale fu rassicurante: Perplexity sostenne di non utilizzare i contenuti di Reddit per addestrare i propri modelli e promise di rispettare il file robots.txt, lo standard tecnico che indica ai bot quali pagine possono o non possono visitare. Tuttavia, secondo Reddit, i fatti raccontano una storia completamente diversa.

Per smascherare le presunte violazioni, Reddit ha condotto un esperimento investigativo creando un post accessibile esclusivamente ai crawler di Google. Nel giro di poche ore, quello stesso contenuto appariva nelle risposte generate da Perplexity. Questa evidenza costituisce, secondo l'azienda californiana, la prova inconfutabile che Perplexity o i suoi fornitori hanno estratto informazioni dalle pagine dei risultati di ricerca di Google per poi incorporarle rapidamente nel proprio motore di risposta basato sull'intelligenza artificiale.

La metafora utilizzata da Reddit per descrivere le società coinvolte è particolarmente evocativa: SerpApi, Oxylabs e AWMProxy vengono paragonate a rapinatori di banche che, incapaci di violare direttamente il caveau, decidono di assaltare il furgone blindato che trasporta il denaro. Questi intermediari tecnologici opererebbero mascherando le proprie identità, nascondendo la loro localizzazione geografica e camuffando i propri sistemi di estrazione automatica per aggirare le difese implementate dalle piattaforme.

I contenuti umani di qualità sono diventati l'oro nero dell'intelligenza artificiale

Ben Lee, responsabile legale di Reddit, ha dichiarato che le aziende di intelligenza artificiale sono coinvolte in una corsa agli armamenti per accaparrarsi contenuti umani di qualità, una pressione che ha alimentato un'economia del "riciclaggio di dati" su scala industriale. Reddit rappresenta un obiettivo particolarmente ambito perché custodisce una delle raccolte più vaste e dinamiche di conversazioni umane mai create, con discussioni su ogni argomento immaginabile, valutate e organizzate dagli stessi utenti attraverso il sistema di voto della piattaforma.

Il valore strategico di questi dati non è sfuggito a Reddit stessa, che ha trasformato l'accesso alle proprie API in un'opportunità commerciale. Le modifiche alle interfacce di programmazione introdotte nel 2023, che scatenarono proteste diffuse tra gli utenti e gli sviluppatori di applicazioni di terze parti, furono giustificate proprio dalla necessità di ottenere un compenso adeguato per l'utilizzo dei contenuti generati dalla comunità. L'azienda ha già stipulato accordi di licenza con OpenAI e Google, e secondo indiscrezioni starebbe cercando di negoziare termini ancora più vantaggiosi con altri potenziali partner.

Questa non è nemmeno la prima battaglia legale di Reddit nel campo dell'intelligenza artificiale: l'azienda aveva già intrapreso azioni contro Anthropic, accusando i bot della società di aver continuato ad accedere alla piattaforma nonostante le rassicurazioni contrarie. La strategia di Reddit sembra chiara: distinguere tra partner commerciali legittimi disposti a pagare per l'accesso ai dati e quelli che l'azienda considera "attori malevoli" che tentano di appropriarsi dei contenuti attraverso canali non autorizzati.

La difesa di Perplexity non si è fatta attendere. Jesse Dwyer, responsabile della comunicazione dell'azienda, pur dichiarando di non aver ancora ricevuto formalmente la documentazione della causa, ha annunciato l'intenzione di combattere vigorosamente per il diritto degli utenti di accedere liberamente e equamente alla conoscenza pubblica. Dwyer ha sottolineato che l'approccio dell'azienda rimane "basato su principi e responsabile" nella fornitura di risposte fattuali attraverso un'intelligenza artificiale accurata, aggiungendo che non tollererà minacce contro l'apertura e l'interesse pubblico.

Fonte dell'articolo: www.theverge.com