Benchmark truccati? Anche gli agenti AI ci cascano, ma fanno da soli

Un gruppo di ricercatori di Scale AI ha scoperto che i modelli di intelligenza artificiale dotati di capacità di ricerca potrebbero ingannare i test di valutazione pescando direttamente le risposte corrette da fonti online, invece di elaborarle attraverso processi di ragionamento autonomo. Il fenomeno, battezzato dai ricercatori "Search-Time Data Contamination", rappresenta una forma sofisticata di "copiatura" digitale che potrebbe distorcere la nostra comprensione delle reali capacità dell'intelligenza artificiale.

Un bel problema, anche perché la notizia arriva proprio mentre aziende di tutto il mondo stanno cercando di capire se e come introdurre l'AI agentica nei loro processi. Una valutazione in cui i risultati dei benchmark giocano un ruolo centrale.

La "pesca" delle risposte su HuggingFace

L'investigazione ha rivelato che durante i test di valutazione delle capacità, questi agenti AI accedevano frequentemente a HuggingFace, il repository online che ospita modelli di intelligenza artificiale e relativi benchmark. Su tre test comunemente utilizzati - Humanity's Last Exam (HLE), SimpleQA e GPQA - circa il 3% delle domande portava i sistemi a individuare direttamente i dataset contenenti le risposte corrette.

La contaminazione non riguarda solo il 3% delle domande, ma mette in discussione l'intero sistema di valutazione

Quando ai modelli Perplexity è stato negato l'accesso a HuggingFace, la loro accuratezza sulle domande "contaminate" è calata di circa il 15%. Gli esperimenti suggeriscono inoltre che HuggingFace potrebbe non essere l'unica fonte di questo tipo di contaminazione, aprendo scenari ancora più ampi di potenziali distorsioni.

Sebbene il 3% possa sembrare una cifra modesta, gli autori dello studio sottolineano come nei benchmark per modelli all'avanguardia come HLE, anche un cambiamento dell'1% nel punteggio complessivo può influenzare significativamente le classifiche. Più cruciale ancora è il fatto che questi risultati gettano ombre su tutte le valutazioni condotte con modelli che hanno accesso online.

Il panorama dei benchmark AI era già problematico prima, come evidenziato da ricerche precedenti che ne hanno denunciato design inadeguati, pregiudizi sistemici e vulnerabilità alla manipolazione. Una recente indagine condotta da ricercatori cinesi su 283 benchmark AI ha confermato questa valutazione critica, identificando punteggi gonfiati causati dalla contaminazione dei dati, valutazioni inique dovute a pregiudizi culturali e linguistici, e mancanza di credibilità nei processi di valutazione.

Le implicazioni per l'industria dell'AI

La scoperta della "Search-Time Data Contamination" non rappresenta solo un problema tecnico, ma tocca il cuore della fiducia che riponiamo nei sistemi di intelligenza artificiale. Se i modelli possono effettivamente "barare" durante i test, come possiamo essere certi delle loro reali prestazioni in scenari applicativi reali? La questione diventa particolarmente critica considerando che molte decisioni strategiche e investimenti miliardari si basano proprio sui risultati di questi benchmark.

L'integrazione delle capacità di ricerca web nei modelli AI, pensata per superarne i limiti temporali, si è trasformata in una porta d'accesso involontaria a scorciatoie che compromettono l'integrità delle valutazioni. Questo paradosso tecnologico evidenzia la necessità di ripensare completamente l'approccio alla misurazione delle prestazioni dell'intelligenza artificiale, sviluppando metodologie più robuste e meno vulnerabili a questo tipo di contaminazione.

Fonte dell'articolo: go.theregister.com

Novità!

Benchmark truccati? Anche gli agenti AI ci cascano, ma fanno da soli

La "pesca" delle risposte su HuggingFace

Le implicazioni per l'industria dell'AI

0 Commenti