Un gruppo di ricercatori di Scale AI ha scoperto che i modelli di intelligenza artificiale dotati di capacità di ricerca potrebbero ingannare i test di valutazione pescando direttamente le risposte corrette da fonti online, invece di elaborarle attraverso processi di ragionamento autonomo. Il fenomeno, battezzato dai ricercatori "Search-Time Data Contamination", rappresenta una forma sofisticata di "copiatura" digitale che potrebbe distorcere la nostra comprensione delle reali capacità dell'intelligenza artificiale.
Un bel problema, anche perché la notizia arriva proprio mentre aziende di tutto il mondo stanno cercando di capire se e come introdurre l'AI agentica nei loro processi. Una valutazione in cui i risultati dei benchmark giocano un ruolo centrale.
I modelli di intelligenza artificiale presentano intrinsecamente una limitazione fondamentale: vengono addestrati su dataset che "fotografano" la realtà fino a una certa data, risultando quindi "ciechi" rispetto a tutto ciò che accade dopo quel momento. Per superare questo ostacolo e gestire meglio le domande su eventi attuali, colossi come Anthropic, Google, OpenAI e Perplexity hanno integrato funzionalità di ricerca web nei loro sistemi AI.
Questa soluzione, apparentemente logica, ha però aperto la strada a comportamenti imprevisti. I ricercatori di Scale AI - Ziwen Han, Meher Mankikar, Julian Michael e Zifan Wang - hanno concentrato la loro analisi sui modelli Perplexity, testando specificamente gli agenti Sonar Pro, Sonar Reasoning Pro e Sonar Deep Research.
La "pesca" delle risposte su HuggingFace
L'investigazione ha rivelato che durante i test di valutazione delle capacità, questi agenti AI accedevano frequentemente a HuggingFace, il repository online che ospita modelli di intelligenza artificiale e relativi benchmark. Su tre test comunemente utilizzati - Humanity's Last Exam (HLE), SimpleQA e GPQA - circa il 3% delle domande portava i sistemi a individuare direttamente i dataset contenenti le risposte corrette.
Quando ai modelli Perplexity è stato negato l'accesso a HuggingFace, la loro accuratezza sulle domande "contaminate" è calata di circa il 15%. Gli esperimenti suggeriscono inoltre che HuggingFace potrebbe non essere l'unica fonte di questo tipo di contaminazione, aprendo scenari ancora più ampi di potenziali distorsioni.
Sebbene il 3% possa sembrare una cifra modesta, gli autori dello studio sottolineano come nei benchmark per modelli all'avanguardia come HLE, anche un cambiamento dell'1% nel punteggio complessivo può influenzare significativamente le classifiche. Più cruciale ancora è il fatto che questi risultati gettano ombre su tutte le valutazioni condotte con modelli che hanno accesso online.
Il panorama dei benchmark AI era già problematico prima, come evidenziato da ricerche precedenti che ne hanno denunciato design inadeguati, pregiudizi sistemici e vulnerabilità alla manipolazione. Una recente indagine condotta da ricercatori cinesi su 283 benchmark AI ha confermato questa valutazione critica, identificando punteggi gonfiati causati dalla contaminazione dei dati, valutazioni inique dovute a pregiudizi culturali e linguistici, e mancanza di credibilità nei processi di valutazione.
Le implicazioni per l'industria dell'AI
La scoperta della "Search-Time Data Contamination" non rappresenta solo un problema tecnico, ma tocca il cuore della fiducia che riponiamo nei sistemi di intelligenza artificiale. Se i modelli possono effettivamente "barare" durante i test, come possiamo essere certi delle loro reali prestazioni in scenari applicativi reali? La questione diventa particolarmente critica considerando che molte decisioni strategiche e investimenti miliardari si basano proprio sui risultati di questi benchmark.
L'integrazione delle capacità di ricerca web nei modelli AI, pensata per superarne i limiti temporali, si è trasformata in una porta d'accesso involontaria a scorciatoie che compromettono l'integrità delle valutazioni. Questo paradosso tecnologico evidenzia la necessità di ripensare completamente l'approccio alla misurazione delle prestazioni dell'intelligenza artificiale, sviluppando metodologie più robuste e meno vulnerabili a questo tipo di contaminazione.