Logo Tom's Hardware
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Tom's Hardware Logo
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Forum
  • Sconti & Coupon
Sconti & Coupon

Novità!

Prova la nuova modalità di navigazione con le storie!

Accedi a Xenforo
Immagine di Abbiamo fatto un giro in Silicon Valley, ecco com'è andata Abbiamo fatto un giro in Silicon Valley, ecco com'è andata...
Immagine di C'è chi è convinto che i large language model possano pensare C'è chi è convinto che i large language model possano pens...

Benchmark truccati? Anche gli agenti AI ci cascano, ma fanno da soli

La contaminazione dei dati può far apparire i modelli di intelligenza artificiale più performanti di quanto non siano realmente

Quando acquisti tramite i link sul nostro sito, potremmo guadagnare una commissione di affiliazione. Scopri di più
Avatar di Valerio Porcu

a cura di Valerio Porcu

Senior Editor

Pubblicato il 25/08/2025 alle 16:53

La notizia in un minuto

  • I modelli AI con capacità di ricerca possono "barare" nei test accedendo direttamente alle risposte online invece di elaborarle autonomamente, un fenomeno chiamato "Search-Time Data Contamination"
  • Durante i benchmark, circa il 3% delle domande spinge i sistemi AI a pescare le risposte corrette da repository come HuggingFace, con un calo del 15% di accuratezza quando l'accesso viene negato
  • La scoperta mette in discussione l'affidabilità dell'intero sistema di valutazione AI, su cui si basano decisioni strategiche e investimenti miliardari nell'industria tecnologica
Riassunto generato con l'IA. Potrebbe non essere accurato.

Un gruppo di ricercatori di Scale AI ha scoperto che i modelli di intelligenza artificiale dotati di capacità di ricerca potrebbero ingannare i test di valutazione pescando direttamente le risposte corrette da fonti online, invece di elaborarle attraverso processi di ragionamento autonomo. Il fenomeno, battezzato dai ricercatori "Search-Time Data Contamination", rappresenta una forma sofisticata di "copiatura" digitale che potrebbe distorcere la nostra comprensione delle reali capacità dell'intelligenza artificiale.

Un bel problema, anche perché la notizia arriva proprio mentre aziende di tutto il mondo stanno cercando di capire se e come introdurre l'AI agentica nei loro processi. Una valutazione in cui i risultati dei benchmark giocano un ruolo centrale. 

Ti potrebbe interessare anche

youtube play
Guarda su youtube logo

I modelli di intelligenza artificiale presentano intrinsecamente una limitazione fondamentale: vengono addestrati su dataset che "fotografano" la realtà fino a una certa data, risultando quindi "ciechi" rispetto a tutto ciò che accade dopo quel momento. Per superare questo ostacolo e gestire meglio le domande su eventi attuali, colossi come Anthropic, Google, OpenAI e Perplexity hanno integrato funzionalità di ricerca web nei loro sistemi AI.

Questa soluzione, apparentemente logica, ha però aperto la strada a comportamenti imprevisti. I ricercatori di Scale AI - Ziwen Han, Meher Mankikar, Julian Michael e Zifan Wang - hanno concentrato la loro analisi sui modelli Perplexity, testando specificamente gli agenti Sonar Pro, Sonar Reasoning Pro e Sonar Deep Research.

La "pesca" delle risposte su HuggingFace

L'investigazione ha rivelato che durante i test di valutazione delle capacità, questi agenti AI accedevano frequentemente a HuggingFace, il repository online che ospita modelli di intelligenza artificiale e relativi benchmark. Su tre test comunemente utilizzati - Humanity's Last Exam (HLE), SimpleQA e GPQA - circa il 3% delle domande portava i sistemi a individuare direttamente i dataset contenenti le risposte corrette.

La contaminazione non riguarda solo il 3% delle domande, ma mette in discussione l'intero sistema di valutazione

Quando ai modelli Perplexity è stato negato l'accesso a HuggingFace, la loro accuratezza sulle domande "contaminate" è calata di circa il 15%. Gli esperimenti suggeriscono inoltre che HuggingFace potrebbe non essere l'unica fonte di questo tipo di contaminazione, aprendo scenari ancora più ampi di potenziali distorsioni.

Sebbene il 3% possa sembrare una cifra modesta, gli autori dello studio sottolineano come nei benchmark per modelli all'avanguardia come HLE, anche un cambiamento dell'1% nel punteggio complessivo può influenzare significativamente le classifiche. Più cruciale ancora è il fatto che questi risultati gettano ombre su tutte le valutazioni condotte con modelli che hanno accesso online.

Il panorama dei benchmark AI era già problematico prima, come evidenziato da ricerche precedenti che ne hanno denunciato design inadeguati, pregiudizi sistemici e vulnerabilità alla manipolazione. Una recente indagine condotta da ricercatori cinesi su 283 benchmark AI ha confermato questa valutazione critica, identificando punteggi gonfiati causati dalla contaminazione dei dati, valutazioni inique dovute a pregiudizi culturali e linguistici, e mancanza di credibilità nei processi di valutazione.

Le implicazioni per l'industria dell'AI

La scoperta della "Search-Time Data Contamination" non rappresenta solo un problema tecnico, ma tocca il cuore della fiducia che riponiamo nei sistemi di intelligenza artificiale. Se i modelli possono effettivamente "barare" durante i test, come possiamo essere certi delle loro reali prestazioni in scenari applicativi reali? La questione diventa particolarmente critica considerando che molte decisioni strategiche e investimenti miliardari si basano proprio sui risultati di questi benchmark.

L'integrazione delle capacità di ricerca web nei modelli AI, pensata per superarne i limiti temporali, si è trasformata in una porta d'accesso involontaria a scorciatoie che compromettono l'integrità delle valutazioni. Questo paradosso tecnologico evidenzia la necessità di ripensare completamente l'approccio alla misurazione delle prestazioni dell'intelligenza artificiale, sviluppando metodologie più robuste e meno vulnerabili a questo tipo di contaminazione.

Fonte dell'articolo: go.theregister.com

Leggi altri articoli

👋 Partecipa alla discussione! Scopri le ultime novità che abbiamo riservato per te!

0 Commenti

⚠️ Stai commentando come Ospite . Vuoi accedere?

Invia

Per commentare come utente ospite, clicca quadrati

Cliccati: 0 /

Reset

Questa funzionalità è attualmente in beta, se trovi qualche errore segnalacelo.

Segui questa discussione

Non perdere gli ultimi aggiornamenti

Newsletter Telegram
Live

I più letti di oggi


  • #1
    Il ragno delle Canarie che ha dimezzato il suo genoma
  • #2
    Windows 7 “mini” da 69 MB: geniale o inutile?
  • #3
    Nascita e morte del CD: la tecnologia che ha cambiato tutto
  • #4
    Allenarsi rallenta il cuore (e ti fa guadagnare anni)
  • #5
    Intel rilancia: AVX e AMX tornano con Nova Lake
  • #6
    Siri cambia anima: l’AI di Google arriva su iPhone
Articolo 1 di 5
C'è chi è convinto che i large language model possano pensare
Un'analisi confronta il ragionamento CoT con i processi cognitivi umani e i risultati dei benchmark.
Immagine di C'è chi è convinto che i large language model possano pensare
1
Leggi questo articolo
Articolo 2 di 5
Abbiamo fatto un giro in Silicon Valley, ecco com'è andata
Dalle aule di Stanford ai laboratori Google, il nostro Grand Tour in Silicon Valley ha svelato il vero spirito della disruption AI. Abbiamo trovato una forte comunità italiana tra campus, startup e big tech: l'innovazione è qui.
Immagine di Abbiamo fatto un giro in Silicon Valley, ecco com'è andata
Leggi questo articolo
Articolo 3 di 5
Tolleranza zero al blackout: l'UPS trifase come pilastro della resilienza industriale e aziendale
Per la resilienza industriale, gli UPS trifase sono un pilastro contro i blackout. Evitano danni e fermi. Caratteristiche chiave: modularità, scalabilità e monitoraggio remoto.
Immagine di Tolleranza zero al blackout: l'UPS trifase come pilastro della resilienza industriale e aziendale
1
Leggi questo articolo
Articolo 4 di 5
25 strumenti AI per la creazione di contenuti e il marketing
Una guida analizza 25 strumenti IA per la creazione di contenuti, evidenziando una tendenza all'automazione accessibile che promette di abbassare la barriera d'ingresso al mercato.
Immagine di 25 strumenti AI per la creazione di contenuti e il marketing
Leggi questo articolo
Articolo 5 di 5
Perché Alphabet trasforma i progetti moonshot in società indipendenti
L'interesse concreto nei progetti resta quando questi diventano aziende indipendenti.
Immagine di Perché Alphabet trasforma i progetti moonshot in società indipendenti
Leggi questo articolo
Footer
Tom's Hardware Logo

 
Contatti
  • Contattaci
  • Feed RSS
Legale
  • Chi siamo
  • Privacy
  • Cookie
  • Affiliazione Commerciale
Altri link
  • Forum
Il Network 3Labs Network Logo
  • Tom's Hardware
  • SpazioGames
  • CulturaPop
  • Data4Biz
  • TechRadar
  • SosHomeGarden
  • Aibay

Tom's Hardware - Testata giornalistica associata all'USPI Unione Stampa Periodica Italiana, registrata presso il Tribunale di Milano, nr. 285 del 9/9/2013 - Direttore: Andrea Ferrario

3LABS S.R.L. • Via Pietro Paleocapa 1 - Milano (MI) 20121
CF/P.IVA: 04146420965 - REA: MI - 1729249 - Capitale Sociale: 10.000 euro

© 2025 3Labs Srl. Tutti i diritti riservati.