Microsoft ha svelato oggi Maia 200, il suo nuovo acceleratore per l'intelligenza artificiale progettato specificamente per l'inferenza su larga scala. L'azienda di Redmond punta a rivoluzionare l'economia dell'AI con un chip che promette prestazioni superiori rispetto ai principali concorrenti del settore, dal Trainium di Amazon ai TPU di Google. Il sistema è già operativo in alcuni datacenter americani ed è pronto per debuttare nel resto del mondo.
Il vero punto di forza di questa soluzione risiede nel rapporto prezzo-prestazioni, un fattore decisivo quando si tratta di elaborare modelli linguistici di enormi dimensioni. Secondo i dati forniti da Microsoft, Maia 200 offre un'efficienza superiore del 30% rispetto ai sistemi precedentemente utilizzati dall'azienda, posizionandosi come il sistema di inferenza più efficiente mai implementato nei suoi datacenter. Le prestazioni dichiarate parlano di oltre 10 petaFLOPS in FP4 e circa 5 petaFLOPS in FP8, per una capacità tre volte superiore rispetto al Trainium di terza generazione di Amazon.
La strategia di sviluppo adottata dal team di ingegneri Microsoft rappresenta forse l'aspetto più interessante dell'intero progetto. Anziché attendere la disponibilità del silicio finale per testare il sistema, l'azienda ha creato uno dei più grandi modelli di emulazione dell'industria, permettendo di validare kernel e tipi di dati a bassa precisione ben prima dell'arrivo dei chip fisici. Questa metodologia ha permesso ai modelli AI di funzionare su Maia 200 entro pochi giorni dalla ricezione dei primi chip assemblati, riducendo a meno della metà il tempo normalmente necessario per portare un'infrastruttura AI dal laboratorio al datacenter.
L'architettura hardware del chip si basa sul processo produttivo a 3 nanometri di TSMC e integra oltre 100 miliardi di transistor. Ma la vera innovazione non sta solo nella potenza di calcolo grezza: il sottosistema di memoria è stato completamente riprogettato per affrontare uno dei principali colli di bottiglia nell'elaborazione dell'AI. Con 216GB di memoria HBM3e capace di trasferire 7 terabyte al secondo, più 272MB di SRAM integrata nel chip ed engine dedicati al movimento dei dati, Maia 200 può mantenere localmente una porzione maggiore dei pesi del modello, riducendo il numero di dispositivi necessari per eseguire i modelli più grandi.
Sul fronte della connettività, Microsoft ha introdotto un'architettura a due livelli basata su Ethernet standard, una scelta che contrasta con le soluzioni proprietarie adottate da alcuni concorrenti. Ogni acceleratore dispone di 1,4 terabyte al secondo di banda dedicata attraverso 28 connessioni da 400 gigabit Ethernet, permettendo operazioni collettive ad alte prestazioni su cluster fino a 6.144 acceleratori. All'interno di ogni vassoio, quattro acceleratori Maia sono completamente interconnessi con collegamenti diretti non commutati, mantenendo le comunicazioni ad alta banda locale per un'efficienza ottimale.
Il sistema di raffreddamento rappresenta un altro elemento distintivo: Microsoft ha sviluppato una seconda generazione di unità di scambio termico a liquido a circuito chiuso, validata anticipatamente insieme agli elementi di rete backend. L'integrazione nativa con il piano di controllo di Azure fornisce capacità di sicurezza, telemetria, diagnostica e gestione sia a livello di chip che di rack, massimizzando l'affidabilità per i carichi di lavoro AI critici in produzione.
I primi utilizzatori di Maia 200 saranno interni a Microsoft: il team Superintelligence sfrutterà gli acceleratori per la generazione di dati sintetici e l'apprendimento per rinforzo destinati a migliorare i modelli di nuova generazione sviluppati internamente. In questi scenari, il design particolare di Maia 200 accelera la velocità con cui è possibile generare e filtrare dati di alta qualità specifici per dominio, come testo, istruzioni o codice, alimentando l'addestramento successivo con segnali più freschi e mirati.
L'utilizzo si estenderà poi a Microsoft Foundry e Microsoft 365 Copilot, integrandosi nell'infrastruttura AI eterogenea distribuita sulla piattaforma cloud globale dell'azienda. In futuro è prevista anche una disponibilità più ampia per i clienti esterni. Per facilitare l'adozione, Microsoft ha annunciato l'apertura dell'anteprima dell'SDK di Maia, invitando accademici, sviluppatori, laboratori di AI all'avanguardia e contributori di progetti open-source a esplorare l'ottimizzazione di modelli e carichi di lavoro.
Il kit di sviluppo include un compilatore Triton, supporto per PyTorch, programmazione a basso livello in NPL e un simulatore Maia con calcolatore dei costi per ottimizzare l'efficienza nelle fasi iniziali del ciclo di vita del codice. Lo stack software integrato verticalmente e il modello di programmazione spaziale offrono agli utenti esperti un controllo granulare quando necessario, pur mantenendo la portabilità del codice su un insieme eterogeneo di acceleratori hardware.
Mentre Microsoft finalizza il dispiegamento di Maia 200 attraverso l'infrastruttura globale, i team di progettazione stanno già lavorando sulle generazioni future, con l'obiettivo che ciascuna stabilisca nuovi parametri di riferimento e offra prestazioni ed efficienza sempre migliori per i carichi di lavoro AI più importanti, in un settore dove l'innovazione procede a ritmi serrati e dove il controllo diretto dell'hardware diventa sempre più strategico per i grandi fornitori di servizi cloud.