Logo Tom's Hardware
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Tom's Hardware Logo
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Forum
  • Editor's Choice
  • Sconti & Coupon
Offerte & Coupon
Accedi a Xenforo
Immagine di Benchmark truccati? Anche gli agenti AI ci cascano, ma fanno da soli
Business
Immagine di Mandare una mail con altri in CC ti può mettere nei guai Mandare una mail con altri in CC ti può mettere nei guai...
Immagine di I Ray-Ban di meta ti spiano:  momenti intimi finiscono sugli schermi in Kenya I Ray-Ban di meta ti spiano:  momenti intimi finiscono sugl...

Benchmark truccati? Anche gli agenti AI ci cascano, ma fanno da soli

La contaminazione dei dati può far apparire i modelli di intelligenza artificiale più performanti di quanto non siano realmente

Avatar di Valerio Porcu

a cura di Valerio Porcu

Senior Editor @Tom's Hardware Italia

Pubblicato il 25/08/2025 alle 16:53

La notizia in un minuto

  • I modelli AI con capacità di ricerca possono "barare" nei test accedendo direttamente alle risposte online invece di elaborarle autonomamente, un fenomeno chiamato "Search-Time Data Contamination"
  • Durante i benchmark, circa il 3% delle domande spinge i sistemi AI a pescare le risposte corrette da repository come HuggingFace, con un calo del 15% di accuratezza quando l'accesso viene negato
  • La scoperta mette in discussione l'affidabilità dell'intero sistema di valutazione AI, su cui si basano decisioni strategiche e investimenti miliardari nell'industria tecnologica

Riassunto generato con l’IA. Potrebbe non essere accurato.

Quando acquisti tramite i link sul nostro sito, potremmo guadagnare una commissione di affiliazione. Scopri di più

Un gruppo di ricercatori di Scale AI ha scoperto che i modelli di intelligenza artificiale dotati di capacità di ricerca potrebbero ingannare i test di valutazione pescando direttamente le risposte corrette da fonti online, invece di elaborarle attraverso processi di ragionamento autonomo. Il fenomeno, battezzato dai ricercatori "Search-Time Data Contamination", rappresenta una forma sofisticata di "copiatura" digitale che potrebbe distorcere la nostra comprensione delle reali capacità dell'intelligenza artificiale.

Un bel problema, anche perché la notizia arriva proprio mentre aziende di tutto il mondo stanno cercando di capire se e come introdurre l'AI agentica nei loro processi. Una valutazione in cui i risultati dei benchmark giocano un ruolo centrale. 

AI Week
Codice sconto copiato!
AI Week Logo

Se l'Intelligenza Artificiale è il tuo futuro, iscriviti subito alla AI Week 2026 per approfondire tutti questi temi con gli esperti.

  1. Utilizza il codice sconto esclusivo per i lettori di Tom's Hardware:
  2. Acquista il tuo biglietto prima che sia troppo tardi!
    Iscriviti ora!

I modelli di intelligenza artificiale presentano intrinsecamente una limitazione fondamentale: vengono addestrati su dataset che "fotografano" la realtà fino a una certa data, risultando quindi "ciechi" rispetto a tutto ciò che accade dopo quel momento. Per superare questo ostacolo e gestire meglio le domande su eventi attuali, colossi come Anthropic, Google, OpenAI e Perplexity hanno integrato funzionalità di ricerca web nei loro sistemi AI.

Questa soluzione, apparentemente logica, ha però aperto la strada a comportamenti imprevisti. I ricercatori di Scale AI - Ziwen Han, Meher Mankikar, Julian Michael e Zifan Wang - hanno concentrato la loro analisi sui modelli Perplexity, testando specificamente gli agenti Sonar Pro, Sonar Reasoning Pro e Sonar Deep Research.

La "pesca" delle risposte su HuggingFace

L'investigazione ha rivelato che durante i test di valutazione delle capacità, questi agenti AI accedevano frequentemente a HuggingFace, il repository online che ospita modelli di intelligenza artificiale e relativi benchmark. Su tre test comunemente utilizzati - Humanity's Last Exam (HLE), SimpleQA e GPQA - circa il 3% delle domande portava i sistemi a individuare direttamente i dataset contenenti le risposte corrette.

La contaminazione non riguarda solo il 3% delle domande, ma mette in discussione l'intero sistema di valutazione

Quando ai modelli Perplexity è stato negato l'accesso a HuggingFace, la loro accuratezza sulle domande "contaminate" è calata di circa il 15%. Gli esperimenti suggeriscono inoltre che HuggingFace potrebbe non essere l'unica fonte di questo tipo di contaminazione, aprendo scenari ancora più ampi di potenziali distorsioni.

Sebbene il 3% possa sembrare una cifra modesta, gli autori dello studio sottolineano come nei benchmark per modelli all'avanguardia come HLE, anche un cambiamento dell'1% nel punteggio complessivo può influenzare significativamente le classifiche. Più cruciale ancora è il fatto che questi risultati gettano ombre su tutte le valutazioni condotte con modelli che hanno accesso online.

Il panorama dei benchmark AI era già problematico prima, come evidenziato da ricerche precedenti che ne hanno denunciato design inadeguati, pregiudizi sistemici e vulnerabilità alla manipolazione. Una recente indagine condotta da ricercatori cinesi su 283 benchmark AI ha confermato questa valutazione critica, identificando punteggi gonfiati causati dalla contaminazione dei dati, valutazioni inique dovute a pregiudizi culturali e linguistici, e mancanza di credibilità nei processi di valutazione.

Le implicazioni per l'industria dell'AI

La scoperta della "Search-Time Data Contamination" non rappresenta solo un problema tecnico, ma tocca il cuore della fiducia che riponiamo nei sistemi di intelligenza artificiale. Se i modelli possono effettivamente "barare" durante i test, come possiamo essere certi delle loro reali prestazioni in scenari applicativi reali? La questione diventa particolarmente critica considerando che molte decisioni strategiche e investimenti miliardari si basano proprio sui risultati di questi benchmark.

L'integrazione delle capacità di ricerca web nei modelli AI, pensata per superarne i limiti temporali, si è trasformata in una porta d'accesso involontaria a scorciatoie che compromettono l'integrità delle valutazioni. Questo paradosso tecnologico evidenzia la necessità di ripensare completamente l'approccio alla misurazione delle prestazioni dell'intelligenza artificiale, sviluppando metodologie più robuste e meno vulnerabili a questo tipo di contaminazione.

Fonte dell'articolo: go.theregister.com

Le notizie più lette

#1
NordVPN - Recensione
4

Hardware

NordVPN - Recensione

#2
Surfshark VPN - Recensione
2

Hardware

Surfshark VPN - Recensione

#3
CyberGhost VPN - Recensione
4

Hardware

CyberGhost VPN - Recensione

#4
ExpressVPN - Recensione
4

Hardware

ExpressVPN - Recensione

#5
Truffa CPU nei laptop di un noto brand cinese
5

Hardware

Truffa CPU nei laptop di un noto brand cinese

👋 Partecipa alla discussione!

0 Commenti

⚠️ Stai commentando come Ospite . Vuoi accedere?

Invia

Per commentare come utente ospite, clicca quadrati

Cliccati: 0 /

Reset

Questa funzionalità è attualmente in beta, se trovi qualche errore segnalacelo.

Segui questa discussione

Ti potrebbe interessare anche

Hanno bucato la mia azienda, ora che faccio?

Business

Hanno bucato la mia azienda, ora che faccio?

Di Antonino Caffo
I Ray-Ban di meta ti spiano:  momenti intimi finiscono sugli schermi in Kenya
1

Business

I Ray-Ban di meta ti spiano:  momenti intimi finiscono sugli schermi in Kenya

Di Valerio Porcu
Mandare una mail con altri in CC ti può mettere nei guai
2

Business

Mandare una mail con altri in CC ti può mettere nei guai

Di Avv. Giuseppe Croari
GPT-5.4 è qui: l'AI che usa il PC meglio di te

Business

GPT-5.4 è qui: l'AI che usa il PC meglio di te

Di Roberto Buonanno
Footer
Tom's Hardware Logo

 
Contatti
  • Contattaci
  • Feed RSS
Legale
  • Chi siamo
  • Privacy
  • Cookie
  • Affiliazione Commerciale
Altri link
  • Forum
Il Network 3Labs Network Logo
  • Tom's Hardware
  • SpazioGames
  • CulturaPop
  • Data4Biz
  • SosHomeGarden
  • Aibay
  • Coinlabs

Tom's Hardware - Testata giornalistica associata all'USPI Unione Stampa Periodica Italiana, registrata presso il Tribunale di Milano, nr. 285 del 9/9/2013 - Direttore: Andrea Ferrario

3LABS S.R.L. • Via Pietro Paleocapa 1 - Milano (MI) 20121
CF/P.IVA: 04146420965 - REA: MI - 1729249 - Capitale Sociale: 10.000 euro

© 2026 3Labs Srl. Tutti i diritti riservati.