Il mondo dell'intelligenza artificiale si trova di fronte a un nuovo capitolo della storica sfida tra uomo e macchina. Questa volta però il campo di battaglia non è la scacchiera, ma la programmazione informatica, e uno dei protagonisti ha deciso di non accettare il guanto di sfida. Andrej Karpathy, ex responsabile della ricerca presso OpenAI e figura di spicco nel settore del machine learning, ha rifiutato l'invito di Elon Musk a competere contro Grok 5, il modello di intelligenza artificiale sviluppato da xAI.
La proposta di Musk è arrivata come risposta diretta a un'intervista rilasciata da Karpathy al podcast Dwarkesh, nella quale l'esperto ha espresso valutazioni piuttosto caute sulle capacità attuali di Grok 5. Secondo Karpathy, il sistema di xAI si troverebbe ancora indietro di diversi mesi rispetto a GPT-4, e l'arrivo della vera intelligenza artificiale generale (AGI) sarebbe ancora lontano almeno un decennio. Queste dichiarazioni hanno evidentemente colpito nel segno, tanto da spingere il CEO di xAI a lanciare pubblicamente la sfida su X.
Il paragone evocato da Musk con la celebre sfida del 1997 tra Garry Kasparov e Deep Blue di IBM non è casuale. Quell'evento segnò un momento storico nella percezione pubblica delle capacità dell'intelligenza artificiale, dimostrando che le macchine potevano superare i migliori campioni umani in compiti cognitivi complessi. Tuttavia, la risposta di Karpathy ha preso una direzione completamente diversa da quella attesa: invece di accettare la competizione, ha sottolineato come il suo contributo in un tale confronto "tenderebbe verso lo zero".
La posizione di Karpathy riflette un cambiamento significativo nel modo in cui gli esperti di machine learning approcciano la questione delle prestazioni dell'intelligenza artificiale. Piuttosto che concentrarsi su sfide dirette tra umani e modelli AI, l'attenzione si sta spostando verso la capacità di questi sistemi di potenziare e accelerare il lavoro umano. È un approccio che privilegia la sinergia rispetto alla competizione, e che vede i modelli linguistici avanzati come strumenti di supporto piuttosto che come avversari da battere.
Eppure, il settore della programmazione competitiva offre metriche chiare e ben definite per valutare le prestazioni dell'intelligenza artificiale. DeepMind ha recentemente annunciato che il suo modello Gemini 2.5 ha risolto 10 dei 12 problemi presentati nelle condizioni delle finali mondiali ICPC, raggiungendo un livello da medaglia d'oro. Sia OpenAI che DeepMind hanno successivamente ottenuto punteggi perfetti di 12 su 12 nello stesso benchmark, utilizzando rispettivamente GPT-4 e GPT-5. Si tratta di problemi di livello universitario che valutano non solo la correttezza delle soluzioni, ma anche le prestazioni in termini di tempo di esecuzione, il tutto entro rigidi vincoli di risorse.
Un episodio particolarmente significativo si è verificato all'inizio di quest'anno, quando un programmatore polacco ha battuto il modello personalizzato di OpenAI in una finale diretta di 10 ore durante l'AtCoder World Tour Finals. Quella vittoria umana ha alimentato speculazioni sul fatto che potrebbe essere stata l'ultima al massimo livello competitivo. La competizione era stata organizzata con regole trasparenti e condizioni rigorosamente controllate, elementi essenziali per garantire la legittimità del confronto.
Se Musk vuole che Grok 5 venga preso sul serio in questo contesto d'élite, dovrà sottoporre il suo modello alle stesse condizioni. Il paragone con Deep Blue funziona solo se la sfida è misurabile in modo oggettivo. Ciò significa contest di durata fissa utilizzando problemi pubblici, accesso identico agli strumenti e alle risorse di calcolo, e nessun intervento esterno di inferenza o assistenza umana. I risultati dovrebbero essere valutati in modo indipendente e pubblicati integralmente per garantire la massima trasparenza.
Musk ha ripetutamente affermato che Grok 5 avrebbe una probabilità del 10%, e in crescita, di raggiungere l'AGI. Tuttavia, finora il modello di xAI non ha pubblicato punteggi ufficiali nei benchmark di programmazione competitiva che contano davvero. Se l'azienda vuole dimostrare parità o superiorità rispetto ai concorrenti, una prova formale su compiti di livello ICPC rappresenterebbe il punto di partenza più ovvio e credibile.