Logo Tom's Hardware
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Tom's Hardware Logo
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Forum
  • Editor's Choice
  • Sconti & Coupon
Offerte & Coupon
Accedi a Xenforo
Immagine di Chip SRAM vs GPU: la nuova sfida per l'inferenza AI
Business
Immagine di L'AI vuole tutta la corrente del mondo, ed è un problema L'AI vuole tutta la corrente del mondo, ed è un problema...
Immagine di Un nuovo chip demolisce le prestazioni di Nvidia H200 Un nuovo chip demolisce le prestazioni di Nvidia H200...

Chip SRAM vs GPU: la nuova sfida per l'inferenza AI

Nvidia compra la tecnologia di Groq per 20 miliardi, Cerebras firma un contratto da 750 MW con OpenAI. I chip basati su memoria SRAM promettono inferenza più veloce e meno costosa. Ecco perché stanno cambiando le regole del gioco — e perché Nvidia sta correndo ai ripari.

Avatar di Valerio Porcu

a cura di Valerio Porcu

Senior Editor @Tom's Hardware Italia

Pubblicato il 11/03/2026 alle 08:55
Quando acquisti tramite i link sul nostro sito, potremmo guadagnare una commissione di affiliazione. Scopri di più

Per un decennio, il progresso dell'intelligenza artificiale si è misurato con una sola variabile: quanto è grande il modello che riesci ad addestrare. Cluster più grandi, budget più alti, parametri in crescita esponenziale. 

Di base, per far funzionare tutto questo bastava avere GPU sempre più potenti. Una situazione che ha permesso a Nvidia di trasformarsi da produttore di schede video a struttura portante del mondo moderno.

AI Week
Codice sconto copiato!
AI Week Logo

Se l'Intelligenza Artificiale è il tuo futuro, iscriviti subito alla AI Week 2026 per approfondire tutti questi temi con gli esperti.

  1. Utilizza il codice sconto esclusivo per i lettori di Tom's Hardware:
  2. Acquista il tuo biglietto prima che sia troppo tardi!
    Iscriviti ora!

Tuttavia i cambiamenti si susseguono una dopo l'altro, e se le GPU Nvidia sono fantastiche per il training, ora che il focus si sposta sempre più sull'inferenza diventano interessanti altri tipo di chip altri tipi di dispositivi, che possono svolgere il compito con maggiore efficienza. 

Addestrare un modello infatti è un evento che accade una volta (o poche volte). Farlo funzionare per centinaia di milioni di utenti, in tempo reale, migliaia di volte al secondo — quella è inferenza. Ed è lì che si gioca la partita economica dell'AI.

Due eventi recenti hanno reso questa transizione impossibile da ignorare: Nvidia ha acquisito la proprietà intellettuale di Groq per 20 miliardi di dollari, e Cerebras ha firmato un contratto da 750 MW con OpenAI per gestire i suoi carichi di inferenza.

Investimenti miliardari su un'architettura alternativa alle GPU, a dimostrazione che la situazione odierna potrebbe cambiare molto, e molto presto. 

Addestrare un modello è un evento. Farlo funzionare per milioni di utenti è inferenza — e lì le GPU non sono più la risposta migliore.

Il problema: la memoria è lontana dal processore

Per capire perché servono chip diversi, bisogna partire da come funziona fisicamente una GPU moderna, come le più che note Nvidia H100 o B200. L'aspetto importante in questo contesto è che  usano una gerarchia di memoria a più livelli:

  • Registri e cache SRAM: piccoli (da 256 KB a 126 MB), velocissimi (1-200 nanosecondi di accesso), integrati direttamente nel chip
  • HBM (High Bandwidth Memory): grande (fino a 80 GB), ma lenta (375-500 nanosecondi) e fisicamente separata dal processore

Quando il processore ha bisogno di dati che non sono in cache, deve andare a prenderli nella memoria esterna — un'operazione che richiede fino a 500 volte più tempo rispetto a un accesso in SRAM locale. Per l'addestramento questo va bene: si caricano grandi blocchi di dati, si riusano molte volte, e il costo dell'accesso si ammortizza. Per l'inferenza è un disastro, perché aumenta proporzionalmente la latenza e, in ultima analisi, il tempo che l'utente resta ad aspettare una risposta. 

Succede perché l'inferenza è auto-regressiva: ogni token generato richiede di leggere l'intero modello dalla memoria prima di poter generare il successivo. Non c'è modo di riutilizzare i dati come nel training. Il risultato: il processore passa più tempo ad aspettare dati dalla memoria che a calcolare. La GPU resta in gran parte inattiva, e l'energia consumata va sprecata in attesa.

Come nota il CTO di d-Matrix: "I benchmark di settore mostrano che le prestazioni di calcolo sono cresciute circa 3x ogni due anni, mentre la banda di memoria è cresciuta solo di 1,6x". Il divario tra capacità di calcolo e capacità di spostare dati si allarga — ed è esattamente dove si inseriscono i chip SRAM-centric.

Le GPU passano più tempo ad aspettare dati dalla memoria che a calcolare. Per l'inferenza, è un problema strutturale.

La soluzione: mettere la memoria dentro il processore

I chip SRAM-centric — progettati da aziende come Cerebras, Groq e d-Matrix — invertono la logica delle GPU. Invece di avere poca memoria veloce e tanta memoria lenta, sacrificano potenza di calcolo per mettere molta più SRAM direttamente sul chip. Il risultato: i dati sono quasi sempre "a portata di mano", con latenze dell'ordine di 1 nanosecondo.

I numeri rendono la differenza evidente:

  • Nvidia B200 (GPU): ~1.600 mm² di silicio, 126 MB di cache SRAM
  • Groq LPU v1: 725 mm², 230 MB di SRAM
  • d-Matrix Corsair: 400 mm², 256 MB di SRAM
  • Cerebras WSE-3: 46.255 mm² (un intero wafer di silicio — il chip più grande mai costruito), 44 GB di SRAM

Il Cerebras WSE-3 ha 350 volte più SRAM di una GPU Nvidia B200. Non è un'evoluzione incrementale: è un'architettura fondamentalmente diversa, progettata per un problema diverso.

Quando la SRAM vince (e quando no)

Non tutti i carichi di lavoro beneficiano allo stesso modo. La variabile chiave è l'intensità aritmetica: quante operazioni di calcolo si fanno per ogni byte di dati letto dalla memoria.

  • Training e prefill (alta intensità aritmetica): le GPU vincono. Leggono i dati una volta e li riusano molte volte attraverso la gerarchia di cache, ammortizzando il costo dell'accesso alla memoria esterna. È il territorio naturale delle GPU, e qui sono imbattibili.
  • Decode (bassa intensità aritmetica): i chip SRAM vincono. Ogni token richiede di leggere l'intero modello dalla memoria con minimo riuso. La velocità di accesso alla memoria diventa il collo di bottiglia, e avere tutta la SRAM on-chip fa la differenza.

L'analisi tecnica di Gimlet Labs, che gestisce un cloud di inferenza multi-silicio con GPU e chip SRAM, conferma il quadro: nei carichi di decode, le architetture SRAM-centric offrono vantaggi misurabili in latenza e throughput. Cerebras dichiara prestazioni fino a 57 volte superiori alle GPU sull'inferenza del modello DeepSeek R1 Llama 70B, con oltre 1.500 token al secondo.

Per l'addestramento servono le GPU. Per l'inferenza in tempo reale, i chip SRAM sono fino a 57 volte più veloci.

I numeri del mercato: chi sta comprando cosa

La validazione industriale è già arrivata:

  • OpenAI ha firmato un contratto da 10 miliardi di dollari con Cerebras per la capacità di inferenza. Il motivo dichiarato: le GPU di Nvidia consumano troppa energia per carichi come gli agenti AI autonomi.
  • Perplexity usa Cerebras per il suo motore di ricerca Sonar, dove la latenza zero è un vantaggio competitivo diretto.
  • Mistral ha scelto Cerebras per alimentare Le Chat, il suo chatbot.
  • Nvidia stessa ha speso 20 miliardi per acquisire la tecnologia di Groq, insieme al fondatore Jonathan Ross e al presidente Sunny Madra. Un chip dedicato all'inferenza basato su questa tecnologia potrebbe essere annunciato al GTC di questo mese.

L'ultimo punto è il più significativo. Un anno fa, al GTC 2025, Jensen Huang sosteneva che le GPU Nvidia erano la risposta anche per l'inferenza. Oggi Nvidia sta costruendo un chip dedicato basato su architettura diversa. Come nota l'analista Holger Mueller di Constellation Research: "È una svolta notevole rispetto alla posizione di un anno fa".

Il futuro: non GPU o SRAM, ma GPU e SRAM

Il mercato sta convergendo verso un modello a due binari: GPU per il training e l'elaborazione pesante, chip SRAM-centric per l'inferenza veloce e a basso costo energetico. Ma la realtà è ancora più sfumata.

Gimlet Labs ha già implementato un sistema che disaggrega le fasi dell'inferenza su chip di vendor diversi: la fase di prefill (calcolo intensivo) va sulle GPU, la fase di decode (memoria intensiva) va sui chip SRAM. Nvidia sta muovendosi nella stessa direzione con il futuro prodotto Rubin CPX, ottimizzato per il prefill.

Ci sono anche sviluppi all'orizzonte che potrebbero cambiare di nuovo le carte in tavola. Le nuove architetture di memoria — come la 3D-stacked In-Memory Computing di d-Matrix e le memorie non volatili ad alta velocità — promettono di colmare il divario tra SRAM e HBM, offrendo sia capacità che velocità. La distinzione netta tra i due approcci potrebbe sfumare nel tempo.

Il futuro non è GPU o SRAM: è un'infrastruttura ibrida dove ogni fase dell'inferenza gira sul chip migliore per quel compito.

Perché conta per le aziende

Per chi gestisce infrastruttura IT o prende decisioni di acquisto tecnologico, il messaggio è chiaro: il costo dell'inferenza è la voce di spesa che cresce più velocemente nel budget AI. Man mano che le aziende passano dalla sperimentazione alla produzione — chatbot, agenti autonomi, analisi in tempo reale — il conto energetico e computazionale dell'inferenza diventa il vincolo principale.

I chip SRAM-centric non sostituiranno le GPU, ma ne ridimensioneranno il ruolo. Chi pianifica investimenti infrastrutturali nel 2026 farebbe bene a considerare un'architettura ibrida — e a tenere d'occhio il GTC di questo mese, dove Nvidia potrebbe ridefinire la propria strategia per l'inferenza.

La partita dell'AI si è giocata fin qui sul training. Da oggi si gioca sull'inferenza. E chi controlla l'inferenza controlla il costo — e quindi la scala — di tutto il resto.

Le notizie più lette

#1
Un nuovo chip demolisce le prestazioni di Nvidia H200
2

Business

Un nuovo chip demolisce le prestazioni di Nvidia H200

#2
L'AI vuole tutta la corrente del mondo, ed è un problema
6

Business

L'AI vuole tutta la corrente del mondo, ed è un problema

#3
Nuovo driver NVMe Windows: prestazioni migliorate del 65%

Hardware

Nuovo driver NVMe Windows: prestazioni migliorate del 65%

#4
Intel mostrerà le CPU Arrow Lake Refresh la prossima settimana
4

Hardware

Intel mostrerà le CPU Arrow Lake Refresh la prossima settimana

#5
Sony testa i prezzi dinamici sul PlayStation Store
1

Videogioco

Sony testa i prezzi dinamici sul PlayStation Store

👋 Partecipa alla discussione!

0 Commenti

⚠️ Stai commentando come Ospite . Vuoi accedere?

Invia

Per commentare come utente ospite, clicca triangoli

Cliccati: 0 /

Reset

Questa funzionalità è attualmente in beta, se trovi qualche errore segnalacelo.

Segui questa discussione

Ti potrebbe interessare anche

Un nuovo chip demolisce le prestazioni di Nvidia H200
2

Business

Un nuovo chip demolisce le prestazioni di Nvidia H200

Di Valerio Porcu
L'AI vuole tutta la corrente del mondo, ed è un problema
6

Business

L'AI vuole tutta la corrente del mondo, ed è un problema

Di Valerio Porcu
Claude trova 22 falle in Firefox in due settimane

Business

Claude trova 22 falle in Firefox in due settimane

Di Valerio Porcu
Anthropic lancia il Claude Marketplace

Business

Anthropic lancia il Claude Marketplace

Di Valerio Porcu
Generazione video, ecco il nuovo strumento gratis di Meta

Business

Generazione video, ecco il nuovo strumento gratis di Meta

Di Valerio Porcu
Footer
Tom's Hardware Logo

 
Contatti
  • Contattaci
  • Feed RSS
Legale
  • Chi siamo
  • Privacy
  • Cookie
  • Affiliazione Commerciale
Altri link
  • Forum
Il Network 3Labs Network Logo
  • Tom's Hardware
  • SpazioGames
  • CulturaPop
  • Data4Biz
  • SosHomeGarden
  • Aibay
  • Coinlabs

Tom's Hardware - Testata giornalistica associata all'USPI Unione Stampa Periodica Italiana, registrata presso il Tribunale di Milano, nr. 285 del 9/9/2013 - Direttore: Andrea Ferrario

3LABS S.R.L. • Via Pietro Paleocapa 1 - Milano (MI) 20121
CF/P.IVA: 04146420965 - REA: MI - 1729249 - Capitale Sociale: 10.000 euro

© 2026 3Labs Srl. Tutti i diritti riservati.