La matematica è da sempre considerata la disciplina intellettuale per eccellenza, un dominio in cui la creatività umana, l'intuizione e il rigore logico si fondono in modo insostituibile. Eppure, nel corso degli ultimi mesi, una serie di sviluppi nell'intelligenza artificiale ha scosso profondamente la comunità dei matematici, costringendola a riconsiderare i confini tra ciò che le macchine possono fare e ciò che rimane prerogativa dell'ingegno umano. Non si tratta di un singolo evento epocale, ma di una progressione di risultati concreti che, sommati tra loro, stanno ridefinendo il paesaggio della ricerca matematica a una velocità che pochi esperti avevano previsto.

Nel marzo 2025, Daniel Litt, matematico presso l'Università di Toronto, aveva scommesso con un collega che le probabilità di un'intelligenza artificiale capace di produrre articoli matematici al livello dei migliori ricercatori umani entro il 2030 si attestassero intorno al 25%. Meno di un anno dopo, ha ritrattato pubblicamente sul suo blog: "Ora mi aspetto di perdere questa scommessa." Litt stesso ammette che solo qualche anno fa i sistemi di AI erano sostanzialmente inutili anche per problemi di matematica liceale, mentre oggi riescono ad affrontare questioni che compaiono realmente nella vita di ricerca di un matematico professionista.

Questo stato d'animo è diffuso tra i colleghi. Jeremy Avigad, della Carnegie Mellon University in Pennsylvania, ha scritto in un recente saggio: "Stiamo esaurendo i posti dove nasconderci. Dobbiamo fare i conti con il fatto che l'AI sarà presto in grado di dimostrare teoremi meglio di quanto possiamo fare noi." Il punto di svolta non è arrivato da un'unica conquista, ma da un accumulo di risultati: sistemi sviluppati da OpenAI e Google DeepMind hanno ottenuto risultati equivalenti alla medaglia d'oro alle Olimpiadi Internazionali di Matematica, una competizione d'élite per studenti delle scuole superiori che molti esperti consideravano al di là della portata dell'AI. A gennaio, strumenti analoghi sono stati impiegati per affrontare problemi di lunga data formulati dal matematico ungherese Paul Erdős.

In questo contesto, Nikhil Srivastava dell'Università della California, Berkeley, ha avviato a febbraio il progetto First Proof, concepito come un banco di prova più realistico per valutare le capacità matematiche dei sistemi AI. Il progetto ha proposto un primo ciclo di 10 problemi tratti dalla ricerca quotidiana dei matematici coinvolti, provenienti da campi molto diversi tra loro. "Erano problemi naturalmente emersi nel nostro lavoro di ricerca," ha spiegato Srivastava. "Attingono a una distribuzione tipica di difficoltà: non erano problemi di routine, ma nemmeno di eccezionale complessità. C'era davvero un ampio spettro."

I risultati sono stati significativi. OpenAI ha dichiarato di aver risolto correttamente 5 problemi su 10, secondo la valutazione di esperti consultati, mentre Google DeepMind ne ha risolti 6 su 10 secondo i matematici interpellati per ciascun problema. Lo strumento sviluppato da Google per questo scopo si chiama Aletheia e combina una versione computazionalmente intensiva del suo modello Gemini con un algoritmo di verifica che individua i difetti nelle soluzioni proposte, migliorandole iterativamente in modo autonomo fino a raggiungere una risposta finale. Il numero esatto di iterazioni necessarie non è stato reso pubblico da Google, il che rende difficile una valutazione precisa dell'efficienza del sistema.

Non tutti i problemi hanno ricevuto un giudizio unanime. Il problema 8, collocato in un'area di nicchia della geometria, ha ottenuto il giudizio di correttezza da soli cinque dei sette esperti consultati da Google. Ivan Smith, dell'Università di Cambridge, esterno al progetto, ha osservato che l'AI sembra adottare un approccio sensato al problema e mostra progressi promettenti: "Se fosse uno studente di dottorato a presentare queste riflessioni, sarebbe incoraggiante e darebbe fiducia nel fatto che il risultato sia effettivamente vero."

"Il futuro a cui stiamo tutti pensando è avere strumenti che formalizzeranno automaticamente nuovi articoli matematici, segnalando eventuali errori: questo avrà enormi implicazioni per la peer review." — Johan Commelin, Università di Utrecht

Parallelamente ai progressi nella risoluzione di problemi, l'AI sta avanzando anche nella formalizzazione delle dimostrazioni, cioè nel processo di traduzione di prove matematiche scritte in linguaggio naturale in codice verificabile da computer. Questa capacità risponde a un problema concreto e crescente: se i sistemi AI possono generare dimostrazioni più rapidamente di quanto i matematici umani riescano a verificarle, il rischio è che il corpus matematico si espanda con un numero incontrollato di teoremi la cui correttezza rimane incerta.

La società Math, Inc. ha sorpreso la comunità scientifica annunciando che il suo strumento AI denominato Gauss aveva formalizzato e verificato automaticamente la dimostrazione premiata con la Medaglia Fields 2022 a Maryna Viazovska, che riguarda il problema dell'impacchettamento ottimale delle sfere nello spazio. Questo riconoscimento, spesso definito il Nobel della matematica, era stato assegnato per una soluzione in otto dimensioni e, in seguito, per una generalizzazione in 24 dimensioni. Il risultato finale è stato una dimostrazione in codice di circa 200.000 righe, corrispondenti a circa il 10 per cento dell'intera matematica formalizzata attualmente esistente.

La storia di questo risultato è tuttavia più articolata di quanto sembri. Alla fine dello scorso anno, un piccolo gruppo di matematici guidato da Sidharth Hariharan della Carnegie Mellon University aveva avviato in modo indipendente un progetto per tradurre manualmente il lavoro di Viazovska in codice informatico. Il gruppo, al quale partecipava anche Bhavik Mehta dell'Imperial College London, aveva definito le strutture matematiche fondamentali e tracciato un piano di formalizzazione. Math, Inc. aveva in seguito fornito assistenza al team, ma poi annunciato autonomamente di disporre già della prova completa. Come ha sottolineato Chris Birkbeck dell'Università dell'East Anglia, UK: "Avevamo realizzato tutti i pezzi, ma non avevamo ancora scritto il manuale di istruzioni per assemblarli." Senza il lavoro preparatorio del gruppo di Hariharan, l'AI non avrebbe potuto completare le sue dimostrazioni.

Johan Commelin, dell'Università di Utrecht, ha commentato l'impresa con entusiasmo misurato: "Questo è un risultato importante. Si tratta di un lavoro premiato con la Medaglia Fields che viene auto-formalizzato." Pur riconoscendo che il codice prodotto dall'AI è probabilmente circa 10 volte più lungo di quanto un matematico umano avrebbe scritto per lo stesso compito, sottolinea che il risultato rimane una conquista notevole. Commelin immagina un futuro in cui strumenti di questo tipo formalizzeranno automaticamente ogni nuovo articolo di ricerca e segnaleranno la presenza di eventuali errori, trasformando profondamente il processo della peer review scientifica.

Non tutti accolgono questi sviluppi con ottimismo incondizionato. Anna Marie Bohmann della Vanderbilt University nel Tennessee avverte che l'uso sistematico di macchine per risolvere i problemi proposti in First Proof produce sì dimostrazioni concrete, ma elimina le preziose "opportunità di apprendimento". "Lottare per creare e formulare nuove idee e per risolvere nuovi problemi è uno dei principali modi in cui sia gli studenti sia i professionisti della matematica consolidano le proprie conoscenze." Tony Feng, membro del team di Aletheia presso Google DeepMind, condivide questa preoccupazione e si mostra cauto nell'utilizzo diretto dello strumento: ritiene importante percorrere autonomamente il processo di costruzione dell'intuizione matematica.

La questione tocca anche la natura stessa della pratica matematica: Mehta sottolinea che persino la formalizzazione genera intuizioni importanti, e lui e i suoi colleghi dovranno ora analizzare le 200.000 righe di codice prodotte dall'AI per identificare ciò che potrebbe essere utile ad altri progetti. La matematica non è, in questa visione, solo il prodotto finale — il teorema dimostrato — ma il percorso intellettuale che porta a quel risultato.

La prospettiva storica offre forse il quadro più equilibrato per interpretare questa transizione. Commelin ricorda che i calcoli manuali erano un tempo una parte fondamentale del lavoro del matematico, prima di essere completamente automatizzati. La sfida che la comunità scientifica dovrà affrontare nei prossimi anni è capire quali aspetti della pratica matematica rimangono irriducibilmente umani — la scelta dei problemi da affrontare, la costruzione dell'intuizione, la capacità di giudicare ciò che è matematicamente rilevante — e come questi possano integrarsi con strumenti sempre più potenti.