Logo Tom's Hardware
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Tom's Hardware Logo
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Forum
  • Sconti & Coupon
% Black Friday
%
Accedi a Xenforo
Immagine di Il vero nodo dell’AI è l’inference: come Crusoe e Groq cambiano le regole del gioco
Business
Immagine di Nuove opzioni per lo storage ad alte prestazioni: l'all-flash punta a blindare i dati dell'AI Nuove opzioni per lo storage ad alte prestazioni: l'all-flas...
Immagine di 5G SA, qualcosa si muove, 90 operatori sono in modalità "soft launch" 5G SA, qualcosa si muove, 90 operatori sono in modalità "so...

Il vero nodo dell’AI è l’inference: come Crusoe e Groq cambiano le regole del gioco

L'inference è la vera sfida dell'AI: Crusoe (energia) e Groq (chip dedicati) ridisegnano l'infrastruttura per garantire efficienza, velocità e sostenibilità, superando i limiti dei sistemi tradizionali.

Avatar di Giacomo Barone

a cura di Giacomo Barone

CEO, Hiop

Pubblicato il 28/11/2025 alle 15:58
Quando acquisti tramite i link sul nostro sito, potremmo guadagnare una commissione di affiliazione. Scopri di più

Quando si parla di intelligenza artificiale, l’attenzione va quasi sempre al training, ovvero l’enorme lavoro necessario per addestrare un modello: miliardi di parametri da ottimizzare, GPU farm grandi come quartieri, dataset vasti quanto intere biblioteche digitali. Eppure, oggi il vero collo di bottiglia non è più l’addestramento, è ciò che avviene dopo: l’inference, ovvero il processo con cui un modello già addestrato genera risposte, testi, immagini o decisioni ogni volta che qualcuno lo utilizza. In altre parole, se il training è un punto di partenza, l’inference, invece, è ciò che permette ai modelli di funzionare in tempo reale, miliardi di volte al giorno, per utenti e aziende in tutto il mondo. Ed è in questa fase che i costi esplodono, la latenza diventa critica e l’infrastruttura tradizionale mostra tutti i suoi limiti.

I dati parlano chiaro: alcune analisi suggeriscono che l’inference può rappresentare fino all’80-90% dei costi (o comunque della componente di compute/energia) totali nel ciclo di vita di un modello. E, secondo un’analisi di Ed Zitron basata su documenti interni trapelati, solo OpenAI avrebbe speso circa 3,8 miliardi US$ per l’inference nel 2024 e circa 8,65 miliardi US$ nei primi nove mesi del 2025. Per ogni query a ChatGPT, ogni interazione con un modello generativo, ogni chiamata API, si accumula un costo. Non è quindi più solo il training la vera sfida, ma è sostenere miliardi di richieste quotidiane mantenendo latenze accettabili e costi sotto controllo.

AI Week
Codice sconto copiato!
AI Week Logo

Se l'Intelligenza Artificiale è il tuo futuro, iscriviti subito alla AI Week 2026 per approfondire tutti questi temi con gli esperti.

  1. Utilizza il codice sconto esclusivo per i lettori di Tom's Hardware:
  2. Acquista il tuo biglietto prima che sia troppo tardi!
    Iscriviti ora!

Gli hyperscaler dominanti, Microsoft, Amazon, Google, hanno costruito data center pensati per il cloud generalista: storage, compute on-demand, servizi distribuiti. Infrastrutture progettate per servire milioni di utenti con carichi variabili, non per sostenere il peso incessante dell'AI generativa. Il risultato è un adattamento: chip general-purpose spinti al limite, architetture legacy ottimizzate per altri scopi, costi energetici insostenibili. Secondo la International Energy Agency, il consumo elettrico globale dei data center è destinato a raddoppiare entro il 2030, raggiungendo 945 TWh, rappresentando circa il 3% del consumo elettrico mondiale. Negli Stati Uniti, i data center hanno consumato 183 TWh nel 2024, pari al 4,4% del totale nazionale, con una crescita prevista del 133% entro il 2030. L'AI è il driver principale di questa espansione: i data center ottimizzati per l'AI quadruplicheranno la loro domanda energetica entro il 2030. E quando la domanda cresce in modo esponenziale, l'inefficienza diventa strutturale.

In questo contesto, due player stanno ripensando il problema dalle fondamenta. Non migliorando l'esistente, ma ridisegnando l'intera catena dal basso.

Crusoe, un’azienda statunitense specializzata nella costruzione e gestione di data center ad alta efficienza energetica, parte da una premessa semplice: se l'AI consuma energia su scala industriale, perché costruire data center lontano dalle fonti energetiche? Il loro modello ribalta la logica tradizionale. Invece di posizionare i server vicino agli utenti finali, li collocano vicino alle centrali: geotermiche, nucleari, solari, gas flaring altrimenti sprecato. L'infrastruttura segue l'energia, non il contrario.

I numeri dimostrano l'ambizione della strategia. Nel 2025, Crusoe ha completato il campus di Abilene, Texas — un progetto da 1,2 GW di capacità distribuita su otto edifici e circa 4 milioni di piedi quadrati. La costruzione è iniziata a giugno 2024, e i primi due edifici (200+ MW) sono stati energizzati entro la prima metà del 2025. L'intero progetto è sostenuto da un joint venture da 15 miliardi di dollari con Blue Owl Capital e Primary Digital Infrastructure.

Immagine id 77419

Ogni edificio può supportare fino a 50.000 GPU Nvidia GB200 NVL72 su un'unica rete integrata, spingendo il limite della scala per training e inference AI. Il raffreddamento è garantito da sistemi liquid-to-chip a circuito chiuso con zero evaporazione d'acqua, un aspetto critico in regioni dove la risorsa idrica è limitata. Il vantaggio è duplice. I costi elettrici crollano grazie all'accesso diretto a energia eolica a basso costo. L'impatto ambientale si riduce drasticamente. E l'inference, che non richiede latenze da millisecondo come un'app consumer, può permettersi questa distanza geografica dalle principali aree urbane. 

Groq, società statunitense focalizzata esclusivamente sull’inference per l’AI, sceglie una strada ancora più radicale: il problema non è solo dove metti i server, ma cosa ci metti dentro. L'azienda parte da una critica diretta: i chip Nvidia e l'ecosistema CUDA dominano quasi la totalità della quota di mercato, ma non sono stati progettati per l'inference. Sono ottimi per il training — calcoli paralleli, matrici dense, batch processing — ma inadeguati per la velocità, la latenza e l'efficienza richieste dall'inference continua.

La soluzione di Groq è il Language Processing Unit (LPU), un chip progettato da zero per l'inference. L'architettura Tensor-Streaming Processor (TSP) raggiunge 750 TOPS a INT8 e 188 TeraFLOPS a FP16, con 230 MB di SRAM on-chip e 80 TB/s di bandwidth interno. Il risultato: nei benchmark indipendenti di ArtificialAnalysis.ai, Groq ha raggiunto 241 token al secondo con Mixtral 8x7B, più del doppio rispetto ai provider tradizionali. Con modelli più piccoli come Llama 2 7B, la velocità sale a 750 token/s. La chiave è eliminare i colli di bottiglia della memoria esterna. Mentre GPU e CPU si affidano alla RAM esterna, l'LPU integra tutta la memoria necessaria direttamente sul chip, riducendo drasticamente i tempi di accesso e aumentando l'efficienza energetica a 1-3 joule per token — una frazione del consumo delle soluzioni tradizionali.

Ma Groq non si ferma al chip. Ha riprogettato l'intera catena: schede custom, server ottimizzati, rack preassemblati chiamati GroqRack. Otto server, ciascuno con otto LPU, collegati tramite l'interconnect proprietario RealScale che elimina la necessità di switch esterni. Un singolo GroqRack può fornire 12 petaflops di performance su dati FP16. Il risultato è un'infrastruttura plug-and-play. Moduli spedibili ovunque, installabili in tempi record. In Arabia Saudita, Groq ha attivato il più grande data center per inference della regione EMEA in soli 8 giorni a dicembre 2024. Nel febbraio 2025, in occasione di LEAP 2025, l'azienda ha annunciato un impegno da 1,5 miliardi di dollari dal Regno dell'Arabia Saudita per espandere il data center di Dammam, ora operativo con 19.000 LPU e in grado di servire clienti in tutto il mondo tramite GroqCloud.

Il progetto saudita è strategico: Groq sta costruendo quella che definisce "l'infrastruttura per inference più grande al mondo", con capacità di processare miliardi di token al giorno entro la fine del 2024 e centinaia di miliardi entro il 2025. La partnership con Aramco Digital e il supporto alla Saudi Data and AI Authority per il modello linguistico arabo ALLaM dimostrano l'ambizione di diventare un provider globale. Dal punto di vista finanziario, Groq ha chiuso un round da 640 milioni nell'agosto 2024 a una valutazione di 2,8 miliardi. Investitori come BlackRock, Samsung e Cisco hanno scommesso sulla capacità dell'azienda di scalare rapidamente.

I costi dell’inference mostrano un trend di deflazione accelerata. Secondo l’analisi LLMflation di Andreessen Horowitz, il costo per ottenere prestazioni paragonabili a GPT-3 è sceso da circa 60 dollari per milione di token nel 2021 a circa 0,06 dollari nel 2024, con una riduzione di quasi 1.000 volte in tre anni. Per modelli con prestazioni simili a GPT-4, la stessa analisi indica cali fino a 62 volte dal 2023 al 2024. 

Epoch AI, in uno studio dedicato ai prezzi dell’inference su sei diversi benchmark, rileva che le riduzioni dei costi variano da 9× a 900× all’anno, con un’accelerazione significativa dopo gennaio 2024. Il tasso mediano di deflazione, escludendo i dati pre-2024, è passato da circa 50× a oltre 200×.

Questa compressione dei prezzi deriva da più fattori: concorrenza crescente tra provider di AI; miglioramenti hardware, in particolare l’emergere di chip dedicati all’inference, come quelli di Amazon (Inferentia) e Google (TPU), progettati per ridurre costi e latenza; ottimizzazioni algoritmiche, tra cui quantizzazione, pruning e architetture più efficienti come i Mixture-of-Experts.

Parallelamente, mentre il costo per token diminuisce, il volume di token generati globalmente cresce in modo esponenziale. Il report AI Index 2025 della Stanford HAI mostra che la domanda di calcolo per l’AI generativa da parte di imprese e consumatori è aumentata in modo continuo nel 2024–2025, portando molte aziende a incrementare la spesa in servizi di AI nonostante la riduzione dei prezzi unitari.

Crusoe e Groq rappresentano due filosofie diverse per affrontare la stessa sfida: rendere l'inference scalabile, sostenibile, economicamente viabile. Crusoe ripensa la geografia dell'infrastruttura. Groq ripensa la tecnologia stessa. Entrambi partono dalla consapevolezza che l'AI non può più crescere su architetture pensate per altri scopi. Il training definisce i modelli. Ma è l'inference a determinarne la reale diffusione, l'impatto economico, la sostenibilità nel lungo periodo.

Ecco perché la competizione si sposta. Non più solo su chi addestra i modelli migliori, ma su chi riesce a farli girare meglio, più velocemente, a costi più bassi. Perché se il training è un evento isolato, l'inference è la maratona quotidiana che decide chi resta in gara. E mentre Nvidia mantiene il dominio assoluto con l'80-90% del mercato dei chip AI per training e inference, i segnali di cambiamento si moltiplicano. OpenAI ha firmato un contratto pluriennale con AMD per 6 GW di GPU MI450, segnalando la volontà di diversificare. Meta sta sviluppando i propri chip MTIA. Google e Amazon investono miliardi nei loro TPU e Trainium.

E in questo scenario, player come Groq — con chip specifici per inference 10 volte più efficienti dal punto di vista energetico e costi operativi inferiori — rappresentano una minaccia concreta in un segmento che vale decine di miliardi di dollari all'anno. L'infrastruttura legacy sta già mostrando il fiato corto. Il futuro dell'AI si giocherà non sui modelli più grandi, ma sui sistemi più efficienti. E in questa corsa, Crusoe e Groq hanno capito che l'inference non è un dettaglio tecnico, ma il campo di battaglia decisivo.

👋 Partecipa alla discussione! Scopri le ultime novità che abbiamo riservato per te!

0 Commenti

⚠️ Stai commentando come Ospite . Vuoi accedere?

Invia

Per commentare come utente ospite, clicca quadrati

Cliccati: 0 /

Reset

Questa funzionalità è attualmente in beta, se trovi qualche errore segnalacelo.

Segui questa discussione

Ti potrebbe interessare anche

5G SA, qualcosa si muove, 90 operatori sono in modalità "soft launch"
1

Business

5G SA, qualcosa si muove, 90 operatori sono in modalità "soft launch"

Di Antonino Caffo
Nuove opzioni per lo storage ad alte prestazioni: l'all-flash punta a blindare i dati dell'AI

Business

Nuove opzioni per lo storage ad alte prestazioni: l'all-flash punta a blindare i dati dell'AI

Di Valerio Porcu
Google vuole vendere chip AI a Meta, Nvidia trema
1

Business

Google vuole vendere chip AI a Meta, Nvidia trema

Di Valerio Porcu
C'è il rischio che la tua azienda diventi una AI-company, senza usare mai l'IA
1

Business

C'è il rischio che la tua azienda diventi una AI-company, senza usare mai l'IA

Di Antonino Caffo
Lavoro USA, l’IA mette in crisi milioni di professioni
1

Business

Lavoro USA, l’IA mette in crisi milioni di professioni

Di Antonello Buzzi
Footer
Tom's Hardware Logo

 
Contatti
  • Contattaci
  • Feed RSS
Legale
  • Chi siamo
  • Privacy
  • Cookie
  • Affiliazione Commerciale
Altri link
  • Forum
Il Network 3Labs Network Logo
  • Tom's Hardware
  • SpazioGames
  • CulturaPop
  • Data4Biz
  • TechRadar
  • SosHomeGarden
  • Aibay

Tom's Hardware - Testata giornalistica associata all'USPI Unione Stampa Periodica Italiana, registrata presso il Tribunale di Milano, nr. 285 del 9/9/2013 - Direttore: Andrea Ferrario

3LABS S.R.L. • Via Pietro Paleocapa 1 - Milano (MI) 20121
CF/P.IVA: 04146420965 - REA: MI - 1729249 - Capitale Sociale: 10.000 euro

© 2025 3Labs Srl. Tutti i diritti riservati.