NVIDIA ha svelato i segreti del suo chip più potente di sempre, il Blackwell Ultra GB300. Un salto evolutivo che promette di rivoluzionare il settore con una memoria da 288 GB che apre le porte ai modelli di AI multi-trilionari, e velocità il 50% superiori al modello precedente. I dettagli del chip sono stati condivisi dall'azienda sul proprio sito, in un blog post pubblicato qualche giorno fa.
Il cuore pulsante del GB300 risiede in una soluzione ingegneristica che sembrava fantascienza fino a pochi anni fa. NVIDIA ha combinato due die attraverso l'interfaccia proprietaria NV-HBI, creando un'illusione perfetta: due processori che funzionano come uno solo. Realizzato con il processo TSMC 4NP, una versione ottimizzata del nodo a 5nm specificamente calibrata per NVIDIA, racchiude ben 208 miliardi di transistor in uno spazio incredibilmente compatto.
L'interfaccia NV-HBI garantisce una larghezza di banda di 10 TB/s tra i due die del processore, eliminando qualsiasi collo di bottiglia nella comunicazione interna. La configurazione finale presenta 160 SM (Streaming Multiprocessor), ognuno dotato di 128 core CUDA e quattro core Tensor di quinta generazione che supportano precisioni FP8, FP6 e il rivoluzionario NVFP4.
Se la potenza di calcolo impressiona, la vera svolta arriva dalla capacità di memoria. Il Blackwell Ultra GB300 monta 288 GB di HBM3e, un incremento sostanziale rispetto ai 192 GB del GB200 standard. Questa espansione non è solo numerica: rappresenta la chiave per sbloccare modelli di intelligenza artificiale con più di 300 miliardi di parametri senza dover ricorrere al memory offloading, una tecnica che rallenta drasticamente le prestazioni.
Otto stack di memoria lavorano attraverso 16 controller a 512-bit, creando un'interfaccia complessiva di 8192-bit che opera a 8 TB/s per GPU. Questa configurazione permette di mantenere modelli completi direttamente nella memoria del processore, estendere drasticamente le lunghezze di contesto per i modelli transformer e ottimizzare il rapporto calcolo-memoria per carichi di lavoro diversificati.
Le innovazioni nei Tensor core di quinta generazione
L'evoluzione dei core Tensor rappresenta una storia di innovazione costante che NVIDIA porta avanti da generazioni. Dai primi 8-thread MMA dell'architettura Volta, passando per il supporto completo warp-wide di Ampere e il warp-group MMA di Hopper, si arriva ora alla seconda generazione del Transformer Engine con supporto nativo per FP8, FP6 e il nuovo standard NVFP4.
Il risultato pratico di questa evoluzione si traduce in un incremento del 50% nelle operazioni di calcolo Dense Low Precision utilizzando il nuovo standard NVFP4. La precisione rimane quasi identica all'FP8 con differenze spesso inferiori all'1%, mentre l'impronta di memoria si riduce di 1,8 volte rispetto all'FP8 e di 3,5 volte rispetto all'FP16.
Connettività e scalabilità senza precedenti
L'architettura di interconnessione del Blackwell Ultra stabilisce nuovi standard per la scalabilità. Il sistema NVLINK 5 fornisce 1,8 TB/s di larghezza di banda bidirezionale per GPU attraverso 18 collegamenti da 100 GB/s ciascuno, raddoppiando le prestazioni rispetto alla generazione Hopper precedente.
La topologia massima supporta fino a 576 GPU in un fabric di calcolo non-blocking, mentre le configurazioni rack-scale NVL72 possono gestire 72 GPU con una larghezza di banda aggregata di 130 TB/s. L'interfaccia PCIe Gen6 x16 garantisce 256 GB/s bidirezionali per la comunicazione con l'host, mentre NVLINK-C2C mantiene la coherenza di memoria con i processori Grace a 900 GB/s.
Sicurezza e gestione enterprise
NVIDIA ha potenziato significativamente gli aspetti enterprise del chip con funzionalità di sicurezza e gestione avanzate. Il Multi-Instance GPU (MIG) permette di partizionare il processore in istanze di diverse dimensioni: due istanze da 140 GB, quattro da 70 GB, o sette da 34 GB, garantendo isolamento delle prestazioni e multi-tenancy sicura.
Le funzionalità di confidential computing estendono l'ambiente di esecuzione trusted (TEE) alle GPU con capacità TEE-I/O pionieristiche nel settore e protezione inline NVLINK che mantiene throughput quasi identico rispetto alle modalità non crittografate. Il sistema di Remote Attestation Service alimentato dall'AI monitora migliaia di parametri per predire guasti e ottimizzare la manutenzione.