La startup californiana Nous Research ha dimostrato che un modello IA relativamente compatto può rivaleggiare con sistemi dalle risorse maggiori, raggiungendo prestazioni che sfiorano quelle dei migliori talenti matematici universitari del continente nordamericano. Il sistema Nomos 1 ha ottenuto 87 punti su 120 alla William Lowell Putnam Mathematical Competition 2024, piazzandosi virtualmente al secondo posto su quasi 4.000 partecipanti in carne e ossa.
La vera notizia non sta tanto nel punteggio assoluto, quanto nell'architettura snella che lo ha reso possibile. Con 30 miliardi di parametri e appena 3 miliardi attivi in ogni momento, Nomos 1 utilizza un design mixture-of-experts basato sul modello Qwen3 di Alibaba. Si tratta di dimensioni gestibili anche su hardware consumer, lontane anni luce dai requisiti computazionali dei giganti tecnologici che dominano il settore. Per fare un paragone comprensibile al pubblico italiano: è come se una Panda truccata riuscisse a tenere il passo di una Formula 1 in pista.
L'efficacia dell'addestramento specializzato emerge confrontando i risultati con il modello base. Quando Nous Research ha testato lo stesso Qwen3-30B-A3B-Thinking-2507 senza le ottimizzazioni specifiche, il punteggio è crollato a 24 su 120. Questo divario di 63 punti sottolinea quanto le tecniche di post-training e la qualità dei dati siano decisive, ben oltre la semplice scala computazionale. L'azienda ha fatto verificare i risultati tramite valutazione cieca da parte di un esperto umano che aveva ottenuto piazzamenti tra i primi 200 nella Putnam, pubblicando successivamente tutti i file e le procedure su GitHub per garantire trasparenza.
Il contesto in cui si inserisce questo risultato è quello della Putnam Competition, che per gli Stati Uniti e il Canada rappresenta ciò che le Olimpiadi della Matematica sono a livello globale, ma con un livello di difficoltà ancora superiore. La competizione annuale, organizzata dalla Mathematical Association of America, consiste in due sessioni da tre ore ciascuna separate da una pausa di due ore, con 12 problemi totali da risolvere. Non si tratta di esercizi da manuale, ma di veri enigmi che richiedono approcci creativi e rappresentazioni non convenzionali prima che una soluzione possa emergere.
Il punteggio più alto raggiunto da un partecipante umano è stato 90, mentre il punteggio mediano si è fermato a soli 2 punti. Il 61% dei partecipanti ha ottenuto tre punti o meno. Tra i vincitori storici della competizione figurano tre medaglie Fields - John Milnor, David Mumford e Daniel Quillen - e due premi Nobel per la fisica come Richard Feynman e Kenneth Wilson, a testimonianza del calibro intellettuale richiesto.
Ciò che distingue Nomos 1 dalle semplici inferenze modellistiche è il suo sofisticato reasoning harness, un framework open-source che orchestra il modo in cui il sistema affronta e risolve i problemi. Il meccanismo opera in due fasi distinte entro un limite temporale di tre ore, rispecchiando la struttura della competizione reale. Durante la fase di risoluzione, worker paralleli attaccano simultaneamente i problemi usando un sistema basato su priorità: ogni worker seleziona un problema, genera una risposta, poi valuta autonomamente il proprio lavoro su una scala da 1 a 7. I problemi con il minor numero di punteggi perfetti ricevono priorità, concentrando le risorse computazionali sulle sfide più ardue.
La fase di finalizzazione inizia 15 minuti prima del termine e impiega un processo di selezione a due stadi. Prima, un passaggio di consolidamento raggruppa le risposte per conclusione e tenta di identificare il gruppo corretto - non necessariamente quello maggioritario. Poi, un torneo a confronto diretto con eliminazione singola determina la risposta finale per ciascun problema. Questo approccio sistematico ha permesso a Nomos 1 di ottenere otto punteggi perfetti sui 12 problemi totali.
Il rilascio di Nomos 1 arriva in un momento di accelerazione competitiva nel campo dell'intelligenza artificiale matematica. Il modello DeepSeekMath-V2 ha recentemente ottenuto 118 punti su 120 sulla stessa competizione, superando persino il miglior risultato umano. Quest'anno Google ha impiegato una versione avanzata di Gemini Deep Think che opera interamente in linguaggio naturale, producendo dimostrazioni matematiche rigorose direttamente dalle descrizioni ufficiali dei problemi entro il limite temporale di 4,5 ore della competizione.
Tuttavia, il vero significato dell'achievement di Nomos 1 non risiede nelle prestazioni pure - che rimangono inferiori ai 118/120 di DeepSeek - ma nella sua accessibilità ed efficienza. La possibilità di eseguire il modello su hardware di fascia consumer rappresenta un contrasto stridente con i cluster computazionali massicci richiesti dai modelli di frontiera di OpenAI e Google. Si stima che o1-pro di OpenAI superi i 1.800 miliardi di parametri, mentre Gemini 2.5 Pro di Google probabilmente ecceda i 400 miliardi.
L'annuncio di Nomos 1 segue di pochi giorni il rilascio di Hermes 4.3, altro modello di Nous Research che segna un traguardo significativo per l'azienda. Basato sul modello Seed-OSS-36B-Base di ByteDance, Hermes 4.3 è il primo modello di produzione che Nous Research ha addestrato interamente sulla propria rete Psyche - un'infrastruttura di training distribuito che utilizza un ottimizzatore chiamato DisTrO per coordinare l'addestramento attraverso nodi sparsi in vari data center su internet aperta, protetti dal consenso sulla blockchain Solana.
La versione addestrata su Psyche ha superato quella centralizzata in una serie di compiti a valle, dimostrando che il training distribuito può eguagliare o superare le prestazioni centralizzate per carichi di lavoro produttivi. Il training run si è rivelato stabile per tutta la durata, con una media di 144.000 token al secondo distribuiti su 24 nodi Psyche. Hermes 4.3 ha inoltre ottenuto risultati d'avanguardia su RefusalBench, un nuovo benchmark che misura la disponibilità di un modello a essere utile in scenari comunemente limitati da altri sistemi, rispondendo al 74,60% delle domande.
Insieme, i due rilasci in una sola settimana segnalano la scommessa strategica di Nous Research: modelli più piccoli ed efficienti, con tecniche sofisticate di post-training e reasoning harness elaborati, possono competere - e in alcuni casi superare - i modelli massicci sviluppati da concorrenti meglio finanziati. Per le organizzazioni, le implicazioni sono rilevanti. Le capacità di ragionamento matematico hanno applicazioni ben oltre le competizioni accademiche: sono essenziali per la verifica formale, la dimostrazione di teoremi, la modellazione scientifica, l'analisi crittografica e qualsiasi dominio che richieda deduzioni logiche rigorose.
La natura open-source di entrambi i rilasci - Nomos 1 è disponibile sotto licenza Apache 2.0 su Hugging Face, con il reasoning harness completo su GitHub - significa che le organizzazioni possono implementare queste capacità sulla propria infrastruttura senza affidarsi a chiamate API verso i principali fornitori cloud. Questo abbassa drasticamente la barriera d'ingresso per la ricerca matematica seria, la verifica di dimostrazioni, la modellazione di sistemi complessi e il lavoro di ragionamento avanzato.
Il tempismo sottolinea la velocità a cui si muove il settore: l'86ª competizione Putnam si è svolta sabato 6 dicembre 2025, appena tre giorni prima che Nous Research rilasciasse Nomos 1. Le aziende stanno ora rilasciando sistemi di intelligenza artificiale matematica capaci di prestazioni quasi d'élite entro giorni dalle competizioni per cui sono progettati. La competizione nell'IA matematica si è intensificata drammaticamente negli ultimi mesi, con Google DeepMind e OpenAI che a luglio hanno entrambi raggiunto lo status d'oro all'IMO 2025, seguiti dal modello DeepSeek che ha eguagliato le loro prestazioni risolvendo 5 problemi su 6.
Il divario tra i modelli di frontiera massivi e le alternative open-source efficienti si sta riducendo. Per le organizzazioni che necessitano di capacità di ragionamento matematico senza il budget per il calcolo su scala iper-massive, quel divario potrebbe essersi appena chiuso abbastanza da contare davvero. I principali contributori a Nomos 1 includono Roger Jin per l'addestramento, Jeffrey Quesnelle e Dakota Mahan per l'infrastruttura, Chen Guang come consulente, oltre al team di esperti matematici di Hillclimb AI tra cui Samuel Kim e Miron Yurkevich. Un laptop che può ora superare quasi 4.000 dei migliori matematici universitari del continente rappresenta più di un semplice risultato tecnico: è un segnale che la democratizzazione dell'intelligenza artificiale avanzata potrebbe essere più vicina di quanto molti pensassero.