Il colosso della sicurezza web Cloudflare ha bloccato oltre 416 miliardi di richieste provenienti da bot di intelligenza artificiale da luglio 2024, quando ha reso attiva per impostazione predefinita la funzione di protezione lanciata con l'iniziativa Content Independence Day. Il dato, rivelato dal CEO Matthew Prince in un'intervista a Wired, testimonia l'entità del fenomeno del web scraping automatizzato operato dalle aziende di AI per addestrare i propri modelli linguistici. La tecnologia di Cloudflare consente ai proprietari di siti web di bloccare automaticamente i crawler delle intelligenze artificiali, a meno che le società dietro questi sistemi non paghino per ottenere l'accesso ai contenuti.
Il meccanismo di protezione rappresenta un punto di svolta nel dibattito sul compenso per i contenuti utilizzati nell'addestramento dei modelli di machine learning. Secondo Prince, l'economia digitale sta attraversando una trasformazione epocale: il modello di business di internet sta per cambiare drasticamente, e nessuno può ancora prevedere con certezza quale forma assumerà. Il CEO di Cloudflare ha dichiarato di dedicare praticamente ogni momento della sua giornata lavorativa a riflettere su questa transizione, sottolineando come il tradizionale meccanismo basato sulla generazione di traffico monetizzato attraverso pubblicità, abbonamenti o vendite dirette sia ormai sotto pressione.
La questione tecnica alla base della controversia è ben documentata dalla ricerca scientifica: i modelli di AI addestrati su dati generati artificialmente piuttosto che su contenuti creati da esseri umani mostrano un rapido degrado qualitativo, un fenomeno che nel settore viene definito con il termine tecnico di "model collapse" o colloquialmente come produzione di "slop". Questo rende i contenuti prodotti da autori umani una risorsa strategicamente cruciale per le aziende che sviluppano large language model e altri sistemi di intelligenza artificiale generativa.
L'impatto economico dei riassunti generati dall'AI sulle piattaforme di ricerca e sui social media è già tangibile: numerose analisi dimostrano una riduzione significativa del traffico verso i siti web originali, penalizzando in particolare le pubblicazioni online che dipendono fortemente dalla visibilità organica e dalle visualizzazioni per generare entrate pubblicitarie. In questo contesto, gli accordi di licenza tra editori e aziende di AI stanno emergendo come una possibile soluzione di compromesso, permettendo ai creatori di contenuti e agli editori di mantenere una fonte di reddito mentre le loro opere vengono utilizzate per l'addestramento dei modelli.
L'iniziativa di Cloudflare si inserisce in un panorama normativo in rapida evoluzione, particolarmente rilevante per il mercato europeo dove il Digital Markets Act e altre normative stanno ridefinendo i rapporti di forza tra piattaforme tecnologiche, creatori di contenuti e consumatori finali. La protezione predefinita offerta da Cloudflare potrebbe rappresentare un precedente importante per stabilire nuovi standard nel settore, obbligando di fatto le aziende di AI a negoziare accordi commerciali trasparenti per accedere ai dati necessari all'addestramento dei loro sistemi, piuttosto che affidarsi allo scraping indiscriminato del web.