I benchmark si usano da tempo per misurare le prestazioni di processori, schede video e altri componenti o dispositivi: servono per avere un'idea delle prestazioni in vari ambiti, così da capire quale prodotto performa meglio in un determinato scenario. Ovviamente esistono anche dei benchmark per le IA e i vari giganti del settore, da Google ad Anthropic, da Meta a OpenAI e xAI, si sfidano a colpi di percentuali e punteggi in una gara per il titolo di miglior modello di intelligenza artificiale.
Come in molti altri ambiti, non si tratta solo di numeri: per le aziende che devono scegliere quale sistema di IA adottare, comprendere il vero valore di questi test può fare la differenza tra un investimento vincente e uno spreco di risorse.
L'anatomia dei test per l'intelligenza artificiale
I benchmark rappresentano sostanzialmente gli "esami di maturità" dell'intelligenza artificiale. Proprio come gli studenti italiani affrontano le prove scritte e orali per dimostrare le competenze acquisite durante il percorso scolastico, i modelli di IA vengono sottoposti a test standardizzati che ne valutano le capacità in matematica, scienze, comprensione linguistica, programmazione e ragionamento logico.
Tra i più utilizzati troviamo MMLU (Massive Multitask Language Understanding), che misura le conoscenze generali su un ampio spettro di materie, e HellaSwag, dedicato alla capacità di ragionamento contestuale. HumanEval si concentra invece sulla programmazione informatica, mentre TruthfulQA verifica l'accuratezza delle risposte fornite dai modelli.
Quando tutti vincono, nessuno vince davvero
Il caso di Google con il suo Gemini 2.5 Pro illustra perfettamente il problema attuale. L'azienda di Mountain View ha annunciato un punteggio dell'86,7% nel test AIME 2025, superando di pochissimo l'o3-mini di OpenAI fermo all'86,5%. Numeri impressionanti che però perdono parte del loro impatto quando si scopre che ogni azienda tende a enfatizzare i benchmark in cui eccelle, minimizzando quelli meno favorevoli.
La situazione si complica ulteriormente considerando una ricerca condotta da esperti di Cohere Labs, Stanford e Princeton. Lo studio ha rivelato come alcune grandi aziende tecnologiche sottopongano decine di versioni dei propri modelli ai test, selezionando poi solo i risultati migliori per la pubblicazione. Meta, ad esempio, avrebbe testato almeno 27 versioni diverse prima di presentare pubblicamente Llama 4.
Il miraggio della misurazione perfetta
Percy Liang, direttore del Center for Research on Foundation Models di Stanford, ha sottolineato durante un evento del Fellows Fund che "i benchmark orientano l'IA", fungendo da punto di riferimento per l'intera comunità scientifica. Tuttavia, questa funzione di guida rischia di trasformarsi in un'illusione quando i risultati vengono manipolati o presentati in modo selettivo.
Marina Danilevsky, ricercatrice senior di IBM, invita alla prudenza: eccellere in un benchmark significa semplicemente eccellere in quel particolare test, non necessariamente essere superiori in tutte le applicazioni pratiche. La maggior parte dei benchmark valuta capacità generali, mentre le aziende potrebbero aver bisogno di competenze molto specifiche per il proprio settore.
Soluzioni su misura per esigenze reali
Per rispondere a questa limitazione, Hugging Face ha sviluppato YourBench, uno strumento open-source che permette alle aziende di creare benchmark personalizzati. Il sistema genera automaticamente test specifici per settore semplicemente caricando i documenti aziendali, offrendo una valutazione più pertinente rispetto ai test generici.
L'evoluzione dei benchmark sta anche abbracciando le capacità "agentiche" dell'IA, ovvero la capacità di ragionare, agire e adattarsi in ambienti complessi. AgentBench, ad esempio, valuta quanto bene i modelli gestiscono compiti del mondo reale come pianificare un viaggio o prenotare appuntamenti online.
In questo panorama in continua evoluzione, le aziende devono sviluppare un approccio critico nella valutazione dei sistemi di IA. Piuttosto che affidarsi ciecamente ai punteggi pubblicizzati, è fondamentale comprendere quali test sono più rilevanti per le proprie necessità specifiche e considerare lo sviluppo di benchmark interni che riflettano realmente le sfide operative quotidiane.