Il settore dell'intelligenza artificiale si trova ancora una volta al centro di una controversia legata alla raccolta di dati web, con Perplexity accusata di utilizzare tecniche sofisticate per aggirare le protezioni digitali implementate dai proprietari di siti web. Secondo un rapporto pubblicato da Cloudflare, la società specializzata in servizi di sicurezza informatica, l'azienda AI starebbe impiegando metodi di "crawling invisibile" per accedere a contenuti normalmente protetti. La questione solleva interrogativi significativi sul rispetto delle regole digitali da parte delle compagnie che sviluppano modelli di intelligenza artificiale.
La tecnologia dietro l'inganno digitale
L'indagine condotta da Cloudflare ha rivelato dettagli tecnici preoccupanti sui metodi utilizzati da Perplexity per eludere i sistemi di protezione. Quando i file robots.txt bloccano specificamente i bot ufficiali dell'azienda, denominati "PerplexityBot" e "Perplexity-User", la società sembrerebbe ricorrere a un browser generico progettato per imitare Google Chrome su macOS. Questa strategia permette ai crawler di presentarsi come normali utenti anziché come bot automatizzati, rendendo difficile l'identificazione da parte dei sistemi di sicurezza.
La sofisticazione del sistema non si ferma qui. Gli esperti di Cloudflare hanno documentato come questi crawler non dichiarati possano ruotare attraverso indirizzi IP non elencati nel range ufficiale di Perplexity, permettendo l'attraversamento di firewall progettati per bloccare l'accesso automatizzato. La manipolazione si estende anche ai numeri di sistema autonomo (ASN), identificatori che raggruppano indirizzi IP gestiti dalla stessa organizzazione, con evidenze di commutazione tra diversi ASN su decine di migliaia di domini.
Un problema ricorrente nel mondo AI
Questa non rappresenta la prima volta che Perplexity finisce sotto i riflettori per pratiche controverse di raccolta dati. Nel corso del 2024, diversi proprietari di siti web avevano già segnalato accessi non autorizzati ai loro contenuti, nonostante le esplicite restrizioni imposte tramite robots.txt. All'epoca, l'azienda aveva attribuito la responsabilità ai crawler di terze parti utilizzati per il servizio, una giustificazione che ora appare meno convincente alla luce delle nuove rivelazioni.
Per cercare di rimediare alle controversie passate, Perplexity aveva successivamente stretto accordi di condivisione dei ricavi pubblicitari con diversi editori, una mossa interpretata come un tentativo di riparare ai danni reputazionali causati dalle precedenti violazioni. Tuttavia, l'emergere di nuove accuse solleva dubbi sulla reale efficacia di questi accordi nel prevenire comportamenti scorretti.
La risposta di Cloudflare e le implicazioni future
Di fronte alle evidenze raccolte, Cloudflare ha adottato misure concrete per proteggere i propri clienti. La società ha rimosso i bot di Perplexity dalla lista dei crawler verificati e ha sviluppato sistemi specifici per identificare e bloccare i tentativi di crawling invisibile. Queste contromisure rappresentano un primo passo verso la protezione dei contenuti digitali, ma evidenziano anche la complessità crescente della battaglia tra proprietari di contenuti e aziende AI.
La questione solleva interrogativi più ampi sul futuro della raccolta dati per l'addestramento di modelli AI. Con servizi come Perplexity che aspirano a sostituire i motori di ricerca tradizionali, l'accesso a informazioni aggiornate e accurate diventa fondamentale per mantenere la competitività. Tuttavia, questo bisogno tecnologico non può giustificare la violazione delle regole stabilite dai proprietari dei contenuti.
La situazione prefigura quello che gli esperti definiscono un "gioco del gatto e del topo" destinato a continuare nel tempo. Man mano che le aziende sviluppano tecniche più sofisticate per raccogliere dati, i proprietari di siti web e le società di sicurezza informatica dovranno evolversi di conseguenza, creando un ciclo continuo di innovazione tecnologica guidato dalla necessità di proteggere i diritti digitali. L'industria dell'intelligenza artificiale si trova così a dover bilanciare le proprie esigenze operative con il rispetto delle regole etiche e legali che governano l'ecosistema digitale.