Per un decennio, il progresso dell'intelligenza artificiale si è misurato con una sola variabile: quanto è grande il modello che riesci ad addestrare. Cluster più grandi, budget più alti, parametri in crescita esponenziale.
Di base, per far funzionare tutto questo bastava avere GPU sempre più potenti. Una situazione che ha permesso a Nvidia di trasformarsi da produttore di schede video a struttura portante del mondo moderno.
Tuttavia i cambiamenti si susseguono una dopo l'altro, e se le GPU Nvidia sono fantastiche per il training, ora che il focus si sposta sempre più sull'inferenza diventano interessanti altri tipo di chip altri tipi di dispositivi, che possono svolgere il compito con maggiore efficienza.
Addestrare un modello infatti è un evento che accade una volta (o poche volte). Farlo funzionare per centinaia di milioni di utenti, in tempo reale, migliaia di volte al secondo — quella è inferenza. Ed è lì che si gioca la partita economica dell'AI.
Due eventi recenti hanno reso questa transizione impossibile da ignorare: Nvidia ha acquisito la proprietà intellettuale di Groq per 20 miliardi di dollari, e Cerebras ha firmato un contratto da 750 MW con OpenAI per gestire i suoi carichi di inferenza.
Investimenti miliardari su un'architettura alternativa alle GPU, a dimostrazione che la situazione odierna potrebbe cambiare molto, e molto presto.
Il problema: la memoria è lontana dal processore
Per capire perché servono chip diversi, bisogna partire da come funziona fisicamente una GPU moderna, come le più che note Nvidia H100 o B200. L'aspetto importante in questo contesto è che usano una gerarchia di memoria a più livelli:
- Registri e cache SRAM: piccoli (da 256 KB a 126 MB), velocissimi (1-200 nanosecondi di accesso), integrati direttamente nel chip
- HBM (High Bandwidth Memory): grande (fino a 80 GB), ma lenta (375-500 nanosecondi) e fisicamente separata dal processore
Quando il processore ha bisogno di dati che non sono in cache, deve andare a prenderli nella memoria esterna — un'operazione che richiede fino a 500 volte più tempo rispetto a un accesso in SRAM locale. Per l'addestramento questo va bene: si caricano grandi blocchi di dati, si riusano molte volte, e il costo dell'accesso si ammortizza. Per l'inferenza è un disastro, perché aumenta proporzionalmente la latenza e, in ultima analisi, il tempo che l'utente resta ad aspettare una risposta.
Succede perché l'inferenza è auto-regressiva: ogni token generato richiede di leggere l'intero modello dalla memoria prima di poter generare il successivo. Non c'è modo di riutilizzare i dati come nel training. Il risultato: il processore passa più tempo ad aspettare dati dalla memoria che a calcolare. La GPU resta in gran parte inattiva, e l'energia consumata va sprecata in attesa.
Come nota il CTO di d-Matrix: "I benchmark di settore mostrano che le prestazioni di calcolo sono cresciute circa 3x ogni due anni, mentre la banda di memoria è cresciuta solo di 1,6x". Il divario tra capacità di calcolo e capacità di spostare dati si allarga — ed è esattamente dove si inseriscono i chip SRAM-centric.
La soluzione: mettere la memoria dentro il processore
I chip SRAM-centric — progettati da aziende come Cerebras, Groq e d-Matrix — invertono la logica delle GPU. Invece di avere poca memoria veloce e tanta memoria lenta, sacrificano potenza di calcolo per mettere molta più SRAM direttamente sul chip. Il risultato: i dati sono quasi sempre "a portata di mano", con latenze dell'ordine di 1 nanosecondo.
I numeri rendono la differenza evidente:
- Nvidia B200 (GPU): ~1.600 mm² di silicio, 126 MB di cache SRAM
- Groq LPU v1: 725 mm², 230 MB di SRAM
- d-Matrix Corsair: 400 mm², 256 MB di SRAM
- Cerebras WSE-3: 46.255 mm² (un intero wafer di silicio — il chip più grande mai costruito), 44 GB di SRAM
Il Cerebras WSE-3 ha 350 volte più SRAM di una GPU Nvidia B200. Non è un'evoluzione incrementale: è un'architettura fondamentalmente diversa, progettata per un problema diverso.
Quando la SRAM vince (e quando no)
Non tutti i carichi di lavoro beneficiano allo stesso modo. La variabile chiave è l'intensità aritmetica: quante operazioni di calcolo si fanno per ogni byte di dati letto dalla memoria.
- Training e prefill (alta intensità aritmetica): le GPU vincono. Leggono i dati una volta e li riusano molte volte attraverso la gerarchia di cache, ammortizzando il costo dell'accesso alla memoria esterna. È il territorio naturale delle GPU, e qui sono imbattibili.
- Decode (bassa intensità aritmetica): i chip SRAM vincono. Ogni token richiede di leggere l'intero modello dalla memoria con minimo riuso. La velocità di accesso alla memoria diventa il collo di bottiglia, e avere tutta la SRAM on-chip fa la differenza.
L'analisi tecnica di Gimlet Labs, che gestisce un cloud di inferenza multi-silicio con GPU e chip SRAM, conferma il quadro: nei carichi di decode, le architetture SRAM-centric offrono vantaggi misurabili in latenza e throughput. Cerebras dichiara prestazioni fino a 57 volte superiori alle GPU sull'inferenza del modello DeepSeek R1 Llama 70B, con oltre 1.500 token al secondo.
I numeri del mercato: chi sta comprando cosa
La validazione industriale è già arrivata:
- OpenAI ha firmato un contratto da 10 miliardi di dollari con Cerebras per la capacità di inferenza. Il motivo dichiarato: le GPU di Nvidia consumano troppa energia per carichi come gli agenti AI autonomi.
- Perplexity usa Cerebras per il suo motore di ricerca Sonar, dove la latenza zero è un vantaggio competitivo diretto.
- Mistral ha scelto Cerebras per alimentare Le Chat, il suo chatbot.
- Nvidia stessa ha speso 20 miliardi per acquisire la tecnologia di Groq, insieme al fondatore Jonathan Ross e al presidente Sunny Madra. Un chip dedicato all'inferenza basato su questa tecnologia potrebbe essere annunciato al GTC di questo mese.
L'ultimo punto è il più significativo. Un anno fa, al GTC 2025, Jensen Huang sosteneva che le GPU Nvidia erano la risposta anche per l'inferenza. Oggi Nvidia sta costruendo un chip dedicato basato su architettura diversa. Come nota l'analista Holger Mueller di Constellation Research: "È una svolta notevole rispetto alla posizione di un anno fa".
Il futuro: non GPU o SRAM, ma GPU e SRAM
Il mercato sta convergendo verso un modello a due binari: GPU per il training e l'elaborazione pesante, chip SRAM-centric per l'inferenza veloce e a basso costo energetico. Ma la realtà è ancora più sfumata.
Gimlet Labs ha già implementato un sistema che disaggrega le fasi dell'inferenza su chip di vendor diversi: la fase di prefill (calcolo intensivo) va sulle GPU, la fase di decode (memoria intensiva) va sui chip SRAM. Nvidia sta muovendosi nella stessa direzione con il futuro prodotto Rubin CPX, ottimizzato per il prefill.
Ci sono anche sviluppi all'orizzonte che potrebbero cambiare di nuovo le carte in tavola. Le nuove architetture di memoria — come la 3D-stacked In-Memory Computing di d-Matrix e le memorie non volatili ad alta velocità — promettono di colmare il divario tra SRAM e HBM, offrendo sia capacità che velocità. La distinzione netta tra i due approcci potrebbe sfumare nel tempo.
Perché conta per le aziende
Per chi gestisce infrastruttura IT o prende decisioni di acquisto tecnologico, il messaggio è chiaro: il costo dell'inferenza è la voce di spesa che cresce più velocemente nel budget AI. Man mano che le aziende passano dalla sperimentazione alla produzione — chatbot, agenti autonomi, analisi in tempo reale — il conto energetico e computazionale dell'inferenza diventa il vincolo principale.
I chip SRAM-centric non sostituiranno le GPU, ma ne ridimensioneranno il ruolo. Chi pianifica investimenti infrastrutturali nel 2026 farebbe bene a considerare un'architettura ibrida — e a tenere d'occhio il GTC di questo mese, dove Nvidia potrebbe ridefinire la propria strategia per l'inferenza.
La partita dell'AI si è giocata fin qui sul training. Da oggi si gioca sull'inferenza. E chi controlla l'inferenza controlla il costo — e quindi la scala — di tutto il resto.