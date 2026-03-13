Nella ricerca sull'intelligenza artificiale, la valutazione delle capacità cognitive dei modelli linguistici di grandi dimensioni rappresenta una sfida metodologica sempre più urgente. Negli ultimi anni, i principali sistemi di AI hanno raggiunto prestazioni così elevate sui test accademici tradizionali da rendere questi strumenti sostanzialmente inutili come misuratori di progresso reale. Un consorzio internazionale di quasi 1.000 ricercatori ha risposto a questa necessità sviluppando Humanity's Last Exam (HLE), un sistema di valutazione senza precedenti per ampiezza e profondità, i cui dettagli sono stati pubblicati sulla rivista scientifica Nature e la cui documentazione è consultabile sul portale lastexam.ai.

Il problema di fondo è noto agli specialisti come "benchmark saturation": quando un sistema di AI ottiene punteggi prossimi al massimo su un test concepito per valutare esseri umani, quel test cessa di fornire informazioni utili sulle reali capacità del sistema. Valutazioni storicamente considerate impegnative, come il Massive Multitask Language Understanding (MMLU), sono oggi affrontate dai modelli avanzati con una facilità che rende impossibile distinguere tra livelli di competenza effettivamente diversi. La comunità scientifica aveva quindi bisogno di uno strumento che spostasse radicalmente l'asticella.

HLE si compone di 2.500 domande distribuite su matematica, scienze naturali, scienze umanistiche, linguistica storica e un'ampia gamma di discipline accademiche altamente specializzate. Tra i contributori figura il dottor Tung Nguyen, professore associato didattico presso il Dipartimento di Ingegneria e Informatica della Texas A&M University, che ha personalmente redatto e revisionato 73 delle 2.500 domande disponibili pubblicamente, il secondo contributo individuale più alto tra tutti i partecipanti, con la maggiore concentrazione di quesiti nelle aree della matematica e dell'informatica.

La metodologia di costruzione dell'esame è particolarmente rigorosa e degna di nota. Ogni domanda è stata progettata in modo da avere una sola risposta corretta e verificabile, rendendo impossibile l'ambiguità interpretativa. Altrettanto importante è stato il criterio di esclusione: ogni quesito al quale almeno uno dei principali modelli di AI riusciva a rispondere correttamente veniva sistematicamente eliminato. In questo modo, il corpus finale di domande rappresenta, per definizione, la frontiera esatta oltre la quale i sistemi attuali non riescono ad andare in modo affidabile.

I risultati dei test preliminari confermano l'efficacia di questo approccio selettivo. GPT-4o ha ottenuto un punteggio del 2,7%, mentre Claude 3.5 Sonnet si è fermato al 4,1%. Il modello o1 di OpenAI ha raggiunto l'8%. I sistemi più recenti e potenti, tra cui Gemini 3.1 Pro e Claude Opus 4.6, si attestano in un intervallo compreso tra il 40% e il 50% di risposte corrette, un miglioramento significativo rispetto alle generazioni precedenti, ma ancora lontano da una padronanza che potrebbe essere paragonata a quella di un esperto umano nei rispettivi settori.

"Senza strumenti di valutazione accurati, chi elabora politiche, chi sviluppa tecnologie e chi le utilizza rischia di fraintendere ciò che i sistemi di AI sono realmente in grado di fare" — Tung Nguyen, Texas A&M University

La varietà dei contenuti del test riflette la diversità straordinaria del team di ricercatori coinvolti. Alcune domande richiedono la traduzione di iscrizioni in palmireno antico, una lingua semitica estinta; altre chiedono di identificare strutture anatomiche microscopiche negli uccelli o di analizzare caratteristiche fonetiche dettagliate dell'ebraico biblico. Si tratta di conoscenze che non possono essere recuperate con una semplice ricerca in rete, ma richiedono una comprensione profonda e contestuale del dominio di riferimento.

Dal punto di vista teorico, il progetto solleva una questione fondamentale circa la natura dell'intelligenza artificiale. Come sottolinea Nguyen, "quando i sistemi di AI iniziano a eccellere sui benchmark umani, è tentante pensare che si stiano avvicinando alla comprensione umana, ma HLE ci ricorda che l'intelligenza non riguarda solo il riconoscimento di pattern: riguarda profondità, contesto e competenza specializzata." Questa distinzione è cruciale: un punteggio elevato su un test concepito per studenti universitari misura la capacità di completare quei compiti specifici, non una comprensione più generale e trasferibile.

La struttura a lungo termine dell'esame è stata progettata con attenzione per preservarne l'utilità nel tempo. I ricercatori hanno scelto di rendere pubblicamente accessibile solo una parte delle domande, mantenendo la maggioranza riservata per impedire che i modelli di AI possano semplicemente memorizzare le risposte attraverso il loro addestramento su dati disponibili in rete. Questo approccio ibrido mira a garantire che HLE rimanga uno strumento diagnostico valido anche con le future generazioni di sistemi.

La dimensione collaborativa del progetto merita una riflessione particolare. Il consorzio non era composto esclusivamente da informatici o esperti di machine learning: vi hanno contribuito storici, fisici, linguisti e ricercatori medici provenienti da ogni parte del mondo. È precisamente questa eterogeneità disciplinare a costituire la forza metodologica dell'esame, poiché espone le lacune dei modelli attuali in settori nei quali le capacità umane rimangono solide e differenziate.

Le implicazioni di questo strumento vanno ben oltre il confronto prestazionale. Una misurazione più precisa delle capacità e dei limiti dell'AI è essenziale per orientare scelte tecnologiche e normative informate, per definire le aree in cui l'automazione è affidabile e quelle in cui la supervisione umana rimane indispensabile. La domanda aperta per i prossimi anni riguarda la velocità con cui i sistemi futuri progrediranno su questa scala di difficoltà: se il salto tra le prime generazioni testate e quelle più recenti è già notevole, capire se tale traiettoria continuerà a questa velocità, e quali architetture la sosterranno, è uno dei problemi centrali della ricerca sull'intelligenza artificiale nel prossimo decennio.