Qualcomm ha svelato due nuove schede acceleratrici, denominate AI200 e AI250, progettate specificamente per gestire carichi di lavoro di inferenza AI, accompagnate da sistemi rack completi per ospitarle. L'azienda così torna nel settore dei data center dopo precedenti tentativi poco fortunati focalizzati sulle CPU tradizionali.
Questa volta Qualcomm si concentra su tre criticità che attanagliano gli operatori del settore: il consumo energetico esorbitante necessario per alimentare le applicazioni di intelligenza artificiale, la conseguente generazione di calore che richiede infrastrutture di raffreddamento costose ed energivore, e infine la quantità di memoria disponibile negli acceleratori, fattore determinante per stabilire quali modelli possono essere eseguiti e quanti contemporaneamente su una singola unità.
Sul fronte delle specifiche tecniche, Qualcomm ha mantenuto un profilo prudente rivelando dettagli limitati. La scheda AI200 supporta 768 GB di memoria LPDDR per unità, una capacità superiore rispetto ai chip flagship proposti attualmente da Nvidia e AMD. La versione AI250, invece, promette prestazioni ancora più elevate grazie a un'architettura di memoria innovativa basata sul near-memory computing, che secondo l'azienda dovrebbe garantire una larghezza di banda effettiva dieci volte superiore e un consumo energetico notevolmente ridotto rispetto alle soluzioni esistenti.
I sistemi rack che ospiteranno queste schede acceleratrici saranno preconfigurati e integreranno raffreddamento a liquido diretto, connettività PCIe per lo scale-up, Ethernet per lo scale-out e tecnologie per garantire la sicurezza dei carichi di lavoro AI. Il consumo energetico a livello di rack è stimato in 160 kW, una cifra che Qualcomm posiziona come competitiva nel panorama attuale.
L'annuncio non fa menzione di CPU, nonostante il CEO Cristiano Amon avesse dichiarato lo scorso maggio che l'azienda avrebbe sfruttato la propria esperienza nella costruzione di processori per "pensare a cluster di inferenza caratterizzati da alte prestazioni con consumi energetici molto bassi". Invece, l'approccio sembra basarsi sulla leadership già acquisita nelle NPU (Neural Processing Unit) di Qualcomm, probabilmente un riferimento diretto alle unità di elaborazione neurale marchiate Hexagon integrate nei processori per laptop e dispositivi mobili.
La tecnologia Hexagon più recente, incorporata nel SoC Snapdragon 8 Elite, include 12 acceleratori scalari e otto acceleratori vettoriali, supportando precisioni INT2, INT4, INT8, INT16, FP8 e FP16. Questa expertise nel settore mobile sembra costituire la base per l'incursione nel mercato enterprise, con un focus particolare sul rapporto tra prestazioni, costo ed efficienza energetica.
Humain, un'azienda saudita specializzata in intelligenza artificiale, ha dichiarato di puntare a implementare 200 megawatt di soluzioni rack AI200 e AI250 a partire dal 2026 per fornire servizi di inferenza AI ad alte prestazioni sia nel Regno dell'Arabia Saudita che a livello globale. Tuttavia, permangono incongruenze temporali considerando che Qualcomm stessa prevede la disponibilità dell'AI250 solo nel 2027.
La comunicazione dell'azienda enfatizza le prestazioni a livello di rack e la capacità di memoria superiore per un'inferenza AI generativa rapida, con un eccellente rapporto prestazioni per dollaro per watt e un basso costo totale di proprietà. Tuttavia, restano numerosi interrogativi senza risposta: non è chiaro se i grandi hyperscaler abbiano manifestato interesse per queste soluzioni, né se saranno adatte per implementazioni on-premise.
Gli investitori sembrano comunque apprezzare questa nuova direzione strategica: il titolo Qualcomm ha registrato un balzo dell'11% in borsa lunedì scorso. Resta da vedere se l'azienda riuscirà dove aveva fallito in passato nel mercato dei data center, questa volta cavalcando l'onda dell'intelligenza artificiale con prodotti che promettono di massimizzare l'efficienza delle operazioni di inferenza, un segmento destinato a espandersi esponenzialmente nei prossimi anni.