L'accordo da 20 miliardi di dollari siglato tra Nvidia e Groq non è semplicemente una manovra commerciale di grande portata, ma rappresenta un chiaro segnale che l'epoca delle GPU universali come soluzione predefinita per l'inferenza IA sta giungendo al termine. Per i responsabili tecnici delle aziende, questo significa prepararsi a un cambiamento radicale nel modo di concepire e progettare le applicazioni basate sull'intelligenza artificiale.
La vera rivoluzione in atto riguarda il concetto stesso di come vengono elaborati i dati nell'inferenza AI. A differenza del passato, quando un'unica architettura poteva rispondere a tutte le esigenze, oggi il settore si sta orientando verso quella che gli esperti chiamano architettura di inferenza disaggregata. In pratica, il silicio viene diviso in tipologie differenti per rispondere a due necessità apparentemente contrastanti: la capacità di gestire contesti enormi e la velocità di ragionamento istantaneo.
Thomas Jorgensen di Supermicro, azienda specializzata nella creazione di cluster di GPU per grandi imprese, aveva già anticipato a settembre che il calcolo non rappresenta più il principale ostacolo per i sistemi avanzati. Il vero collo di bottiglia è diventato il trasferimento dei dati verso le GPU. "L'intero cluster è ora il computer", ha spiegato Jorgensen, sottolineando come la rete stia diventando parte integrante del sistema stesso.
La chiave per comprendere questa evoluzione risiede nella distinzione tra due fasi operative dell'inferenza AI. Durante il pre-riempimento, il sistema deve assorbire quantità massicce di informazioni, come un'intera base di codice o un video di un'ora, per elaborarne una comprensione contestuale. Questa fase richiede enormi capacità di calcolo, terreno tradizionale di dominio delle GPU Nvidia. La fase successiva, chiamata decodifica, funziona in modo completamente diverso: il modello genera i contenuti token per token, e qui la velocità con cui i dati passano dalla memoria al processore diventa cruciale.
Michael Stewart, managing partner del fondo di venture capital M12 di Microsoft, evidenzia un elemento tecnico fondamentale che sta ridisegnando il panorama competitivo. La memoria SRAM, tecnologia al cuore dell'architettura Groq, consuma un'energia minima per spostare i dati: circa 0,1 picojoule o meno per bit. Trasferire lo stesso bit tra DRAM e processore richiede invece da 20 a 100 volte più energia. Questa differenza, che può sembrare trascurabile sulla carta, diventa determinante quando si tratta di agenti AI che devono ragionare in tempo reale.
Val Bercovici, responsabile dell'intelligenza artificiale di Weka, identifica con precisione il segmento di mercato in cui questa tecnologia eccelle. I modelli con parametri pari o inferiori a 8 miliardi rappresentano un territorio vastissimo che Nvidia non serviva adeguatamente: inferenza edge, bassa latenza, robotica, applicazioni vocali, dispositivi IoT. Si tratta di tutti quegli ambiti dove l'elaborazione deve avvenire localmente, sui dispositivi, per questioni di comodità, prestazioni o privacy.
La sfida per Nvidia emerge da quattro fronti simultanei, ciascuno dei quali spinge verso la frammentazione dei carichi di lavoro. Secondo i dati Deloitte, alla fine del 2025 l'inferenza ha superato per la prima volta l'addestramento in termini di fatturato totale dei data center. Questo "Inference Flip" ha cambiato radicalmente le metriche di valutazione: mentre l'accuratezza rimane fondamentale, la battaglia ora si combatte sulla latenza e sulla capacità di mantenere lo "stato" negli agenti autonomi.
Un elemento spesso sottovalutato ma decisivo è rappresentato dal successo di Anthropic nel rendere il proprio stack software portabile tra diversi acceleratori. L'azienda ha dimostrato che i suoi modelli Claude possono funzionare sia sulle GPU Nvidia che sulle TPU Ironwood di Google, rompendo quella dipendenza tecnica che per anni ha garantito il dominio di Nvidia. Bercovici di Weka sottolinea come questo risultato non sia ancora pienamente apprezzato dal mercato, ma rappresenti una minaccia esistenziale per la quota del 92% che Nvidia dichiara di detenere.
L'acquisizione da parte di Meta della startup Manus, specializzata in agenti AI, avvenuta pochi giorni prima dell'annuncio dell'accordo Nvidia-Groq, illumina un altro aspetto critico. Manus aveva sviluppato tecnologie focalizzate sulla statefulness, ovvero la capacità degli agenti di ricordare le azioni precedenti. Secondo i dati dell'azienda, per gli agenti di livello produttivo il rapporto tra token di input e output può raggiungere 100:1: per ogni parola che l'agente "pronuncia", ne elabora altre cento internamente.
Gavin Baker, investitore di Groq, prevede conseguenze drastiche per il mercato dei chip IA specializzati. La decisione di Nvidia di integrare la tecnologia Groq potrebbe portare alla cancellazione di tutti gli altri chip alternativi, ad eccezione delle TPU di Google, dell'AI5 di Tesla e del Trainium di AWS. Una previsione audace che testimonia quanto questo accordo sia percepito come dirompente nel settore.
La nuova famiglia di chip Vera Rubin annunciata da Nvidia risponde direttamente a questa frammentazione. Il componente Rubin CPX è progettato per gestire finestre di contesto enormi, pari o superiori a un milione di token, utilizzando 128 GB di memoria GDDR7 invece della costosa HBM. Questa scelta tecnica riflette la necessità di bilanciare prestazioni e costi in un mercato che richiede soluzioni sempre più diversificate.
Stewart evidenzia come storicamente i colossi tecnologici abbiano dominato grazie ad architetture general-purpose, ma il loro punto cieco sia sempre stato ciò che ignoravano ai margini. L'esempio classico è la negligenza di Intel verso il basso consumo energetico. Nvidia sta dimostrando di non voler ripetere lo stesso errore. "Se anche il leader, persino il leone della giungla, acquisisce talenti e tecnologia, è un segno che l'intero mercato vuole semplicemente più opzioni", osserva Stewart.
Per i responsabili tecnici aziendali, il messaggio è inequivocabile: occorre abbandonare l'idea che esista una soluzione unica valida per tutti i carichi di lavoro. I team che nel 2026 sapranno classificare esplicitamente le proprie esigenze e indirizzarle ai livelli appropriati avranno un vantaggio competitivo significativo. Le distinzioni critiche riguardano carichi pesanti di pre-riempimento contro decodifica, contesto lungo contro breve, elaborazione interattiva contro batch, modelli piccoli contro grandi, vincoli edge contro ipotesi di data center.