Logo Tom's Hardware
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Tom's Hardware Logo
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Forum
  • Sconti & Coupon
Offerte di Natale
Accedi a Xenforo
Immagine di Portarsi l'AI in azienda, come sfruttare i benchmark per capire cosa è utile
Business
Immagine di Chat Control (CSAR): il compromesso europeo e le incognite ancora aperte Chat Control (CSAR): il compromesso europeo e le incognite a...
Immagine di AWS usa l’IA per "uccidere" Windows (e azzerare i costi di licenza) AWS usa l’IA per "uccidere" Windows (e azzerare i costi di...

Portarsi l'AI in azienda, come sfruttare i benchmark per capire cosa è utile

Le aziende tecnologiche come Google, Meta e Anthropic presentano regolarmente nuovi modelli di intelligenza artificiale, alimentando la rapida evoluzione del settore.

Avatar di Valerio Porcu

a cura di Valerio Porcu

Senior Editor @Tom's Hardware Italia

Pubblicato il 22/07/2025 alle 09:30

La notizia in un minuto

  • I benchmark di IA stanno perdendo significato: ogni azienda tech annuncia di aver superato i concorrenti, ma spesso testa decine di versioni selezionando solo i risultati migliori per la pubblicazione
  • I test standardizzati come MMLU e HellaSwag misurano capacità generali, ma eccellere in un benchmark non garantisce superiorità in tutte le applicazioni pratiche specifiche del settore
  • Emergono soluzioni personalizzate come YourBench di Hugging Face, che permette alle aziende di creare benchmark su misura caricando i propri documenti aziendali per valutazioni più pertinenti

Riassunto generato con l’IA. Potrebbe non essere accurato.

Quando acquisti tramite i link sul nostro sito, potremmo guadagnare una commissione di affiliazione. Scopri di più

I benchmark si usano da tempo per misurare le prestazioni di processori, schede video e altri componenti o dispositivi: servono per avere un'idea delle prestazioni in vari ambiti, così da capire quale prodotto performa meglio in un determinato scenario. Ovviamente esistono anche dei benchmark per le IA e i vari giganti del settore, da Google ad Anthropic, da Meta a OpenAI e xAI, si sfidano a colpi di percentuali e punteggi in una gara per il titolo di miglior modello di intelligenza artificiale. 

Come in molti altri ambiti, non si tratta solo di numeri: per le aziende che devono scegliere quale sistema di IA adottare, comprendere il vero valore di questi test può fare la differenza tra un investimento vincente e uno spreco di risorse.

Ti potrebbe interessare anche

youtube play
Guarda su youtube logo

L'anatomia dei test per l'intelligenza artificiale

I benchmark rappresentano sostanzialmente gli "esami di maturità" dell'intelligenza artificiale. Proprio come gli studenti italiani affrontano le prove scritte e orali per dimostrare le competenze acquisite durante il percorso scolastico, i modelli di IA vengono sottoposti a test standardizzati che ne valutano le capacità in matematica, scienze, comprensione linguistica, programmazione e ragionamento logico.

Tra i più utilizzati troviamo MMLU (Massive Multitask Language Understanding), che misura le conoscenze generali su un ampio spettro di materie, e HellaSwag, dedicato alla capacità di ragionamento contestuale. HumanEval si concentra invece sulla programmazione informatica, mentre TruthfulQA verifica l'accuratezza delle risposte fornite dai modelli.

Quando tutti vincono, nessuno vince davvero

Il caso di Google con il suo Gemini 2.5 Pro illustra perfettamente il problema attuale. L'azienda di Mountain View ha annunciato un punteggio dell'86,7% nel test AIME 2025, superando di pochissimo l'o3-mini di OpenAI fermo all'86,5%. Numeri impressionanti che però perdono parte del loro impatto quando si scopre che ogni azienda tende a enfatizzare i benchmark in cui eccelle, minimizzando quelli meno favorevoli.

I benchmark orientano l'IA, fornendo alla comunità una stella polare

La situazione si complica ulteriormente considerando una ricerca condotta da esperti di Cohere Labs, Stanford e Princeton. Lo studio ha rivelato come alcune grandi aziende tecnologiche sottopongano decine di versioni dei propri modelli ai test, selezionando poi solo i risultati migliori per la pubblicazione. Meta, ad esempio, avrebbe testato almeno 27 versioni diverse prima di presentare pubblicamente Llama 4.

Il miraggio della misurazione perfetta

Percy Liang, direttore del Center for Research on Foundation Models di Stanford, ha sottolineato durante un evento del Fellows Fund che "i benchmark orientano l'IA", fungendo da punto di riferimento per l'intera comunità scientifica. Tuttavia, questa funzione di guida rischia di trasformarsi in un'illusione quando i risultati vengono manipolati o presentati in modo selettivo.

Marina Danilevsky, ricercatrice senior di IBM, invita alla prudenza: eccellere in un benchmark significa semplicemente eccellere in quel particolare test, non necessariamente essere superiori in tutte le applicazioni pratiche. La maggior parte dei benchmark valuta capacità generali, mentre le aziende potrebbero aver bisogno di competenze molto specifiche per il proprio settore.

Soluzioni su misura per esigenze reali

Per rispondere a questa limitazione, Hugging Face ha sviluppato YourBench, uno strumento open-source che permette alle aziende di creare benchmark personalizzati. Il sistema genera automaticamente test specifici per settore semplicemente caricando i documenti aziendali, offrendo una valutazione più pertinente rispetto ai test generici.

L'evoluzione dei benchmark sta anche abbracciando le capacità "agentiche" dell'IA, ovvero la capacità di ragionare, agire e adattarsi in ambienti complessi. AgentBench, ad esempio, valuta quanto bene i modelli gestiscono compiti del mondo reale come pianificare un viaggio o prenotare appuntamenti online.

In questo panorama in continua evoluzione, le aziende devono sviluppare un approccio critico nella valutazione dei sistemi di IA. Piuttosto che affidarsi ciecamente ai punteggi pubblicizzati, è fondamentale comprendere quali test sono più rilevanti per le proprie necessità specifiche e considerare lo sviluppo di benchmark interni che riflettano realmente le sfide operative quotidiane.

Fonte dell'articolo: www.pymnts.com

👋 Partecipa alla discussione! Scopri le ultime novità che abbiamo riservato per te!

0 Commenti

⚠️ Stai commentando come Ospite . Vuoi accedere?

Invia

Per commentare come utente ospite, clicca triangoli

Cliccati: 0 /

Reset

Questa funzionalità è attualmente in beta, se trovi qualche errore segnalacelo.

Segui questa discussione

Ti potrebbe interessare anche

AWS usa l’IA per "uccidere" Windows (e azzerare i costi di licenza)
2

Business

AWS usa l’IA per "uccidere" Windows (e azzerare i costi di licenza)

Di Valerio Porcu
Chat Control (CSAR): il compromesso europeo e le incognite ancora aperte

Business

Chat Control (CSAR): il compromesso europeo e le incognite ancora aperte

Di Avv. Giuseppe Croari
AWS re:Invent 2025: L'IA smette di chiacchierare e inizia a lavorare (sul serio)

Business

AWS re:Invent 2025: L'IA smette di chiacchierare e inizia a lavorare (sul serio)

Di Valerio Porcu
Se l'IA può sostituirti oggi, forse il problema non è l'IA

Business

Se l'IA può sostituirti oggi, forse il problema non è l'IA

Di Antonino Caffo
ChatGPT con pubblicità (anche per chi paga)

Business

ChatGPT con pubblicità (anche per chi paga)

Di Valerio Porcu
Footer
Tom's Hardware Logo

 
Contatti
  • Contattaci
  • Feed RSS
Legale
  • Chi siamo
  • Privacy
  • Cookie
  • Affiliazione Commerciale
Altri link
  • Forum
Il Network 3Labs Network Logo
  • Tom's Hardware
  • SpazioGames
  • CulturaPop
  • Data4Biz
  • TechRadar
  • SosHomeGarden
  • Aibay

Tom's Hardware - Testata giornalistica associata all'USPI Unione Stampa Periodica Italiana, registrata presso il Tribunale di Milano, nr. 285 del 9/9/2013 - Direttore: Andrea Ferrario

3LABS S.R.L. • Via Pietro Paleocapa 1 - Milano (MI) 20121
CF/P.IVA: 04146420965 - REA: MI - 1729249 - Capitale Sociale: 10.000 euro

© 2025 3Labs Srl. Tutti i diritti riservati.