Il gigante tecnologico cinese Alibaba ha annunciato di aver ridotto dell'82% il numero di GPU NVIDIA necessarie per gestire modelli linguistici di grandi dimensioni all'interno del proprio marketplace Model Studio. Il risultato, emerso da un test condotto nell'arco di diversi mesi e documentato in uno studio presentato al Simposio ACM sui Sistemi Operativi 2025 a Seoul, apre scenari interessanti per i fornitori di servizi cloud che operano in mercati dove l'accesso ai chip più avanzati è limitato. La ricerca, sottoposta a revisione paritaria, è stata condotta da un team congiunto dell'Università di Pechino e della divisione infrastrutture di Alibaba, con la supervisione del CTO Jingren Zhou.
Il sistema Aegaeon, questo il nome della piattaforma sviluppata da Alibaba, rappresenta un cambio di paradigma rispetto agli approcci tradizionali. Mentre la maggior parte delle innovazioni nel settore si concentra sul miglioramento delle prestazioni in fase di addestramento dei modelli, questa soluzione punta sull'ottimizzazione dell'inferenza, ovvero la fase in cui i modelli già addestrati rispondono alle richieste degli utenti. La chiave sta nella virtualizzazione dell'accesso alle GPU a livello di singolo token, permettendo a un unico acceleratore di servire contemporaneamente più modelli differenti.
Durante il periodo di test in ambiente reale, la piattaforma ha gestito decine di modelli linguistici con dimensioni fino a 72 miliardi di parametri, riducendo il parco GPU da 1.192 unità a sole 213. Secondo quanto riportato dal South China Morning Post, i test sono stati condotti utilizzando le GPU H20 di NVIDIA, tra i pochi acceleratori ancora disponibili per acquirenti cinesi nell'ambito delle attuali restrizioni all'esportazione imposte dagli Stati Uniti. Questo dettaglio assume particolare rilevanza considerando le difficoltà che aziende come Alibaba affrontano nell'approvvigionamento di hardware avanzato per l'intelligenza artificiale.
Il meccanismo alla base di Aegaeon si differenzia nettamente dall'approccio convenzionale che assegna un acceleratore a un singolo modello. Invece di questa allocazione statica, il sistema funziona come uno scheduler che distribuisce frammenti minuscoli di lavoro attraverso un pool condiviso di risorse. Questa strategia si rivela particolarmente efficace per gestire modelli con domanda irregolare o imprevedibile, una situazione comune nei servizi cloud dove il carico di lavoro può variare drasticamente nel corso della giornata.
I risultati parlano di un aumento del "goodput", una metrica che misura l'output effettivo del sistema, fino a nove volte superiore rispetto ai precedenti sistemi serverless. Questo indicatore è particolarmente significativo perché non si limita a misurare la velocità teorica, ma valuta quanta capacità computazionale si traduce effettivamente in risposte utili agli utenti finali. L'approccio di Alibaba potrebbe quindi rappresentare una soluzione per estrarre maggiore capacità inferenziale dal silicio esistente, un aspetto cruciale in un momento storico in cui l'accesso ai chip più recenti è diventato un fattore geopolitico.
Rimangono tuttavia interrogativi sulla replicabilità di questi risultati al di fuori dell'ecosistema proprietario di Alibaba Cloud. Lo studio non specifica nel dettaglio l'architettura di rete utilizzata durante i test, sebbene sia noto che l'azienda dispone di una propria rete eRDMA (elastic RDMA) e di una consolidata esperienza nella costruzione di stack altamente integrati per il serving di GPU. Questa integrazione verticale potrebbe essere un fattore determinante per l'efficacia del sistema, suggerendo che i risultati potrebbero dipendere da un ambiente ottimizzato e difficilmente riproducibile con configurazioni hardware e software standard.