Huawei ha lanciato Flex:ai, una piattaforma open-source di orchestrazione per cluster di calcolo AI che promette di aumentare del 30% il tasso di utilizzo medio delle unità di elaborazione dedicate all'intelligenza artificiale. L'annuncio, arrivato venerdì 21 novembre, si inserisce in un contesto particolarmente complesso per il gigante tecnologico cinese, ancora sotto il peso delle restrizioni all'esportazione imposte dagli Stati Uniti sui chip ad alte prestazioni. La mossa rappresenta una strategia sempre più diffusa in Cina: compensare le limitazioni nell'accesso all'hardware di ultima generazione puntando sull'ottimizzazione software e sull'efficienza nella gestione delle risorse computazionali disponibili.
La piattaforma sarà distribuita attraverso ModelEngine, la community di sviluppatori di Huawei, e si basa su un'estensione avanzata di Kubernetes, il sistema di orchestrazione containerizzato già ampiamente utilizzato nell'industria. Flex:ai introduce però funzionalità specifiche per il calcolo AI: la capacità di suddividere singole GPU o NPU (Neural Processing Unit) in multiple istanze virtuali di calcolo e di orchestrare i carichi di lavoro su hardware eterogeneo. Questo approccio consente di massimizzare lo sfruttamento delle risorse in cluster di grandi dimensioni, evitando che costosi acceleratori rimangano inattivi durante le fasi di training o inference dei modelli di machine learning.
Dal punto di vista architetturale, Flex:ai si posiziona come un layer di astrazione superiore rispetto ai componenti Kubernetes esistenti. Kubernetes supporta già plugin per dispositivi e scheduler come Volcano, oltre a framework come Ray per l'allocazione frazionaria e lo scheduling di gruppo, ma Flex:ai unifica queste funzionalità in un'interfaccia coesa. La peculiarità più rilevante è il supporto nativo per gli Ascend NPU di Huawei, oltre alle GPU tradizionali, aprendo scenari di deployment ibrido particolarmente interessanti per le infrastrutture cinesi che combinano silicio occidentale ancora disponibile e chip domestici.
Il confronto con Run:ai, la piattaforma di orchestrazione acquisita da NVIDIA nel 2024, è inevitabile. Run:ai offre scheduling multi-tenant e preemption dei carichi di lavoro su cluster GPU estesi, funzionalità che Flex:ai dichiara di replicare con un focus però sull'open-source e sulla compatibilità cross-acceleratore. Questa differenza filosofica potrebbe rivelarsi strategica: mentre l'ecosistema NVIDIA tende alla verticalizzazione proprietaria, Huawei punta su un modello aperto che facilita l'adozione in contesti dove la diversificazione hardware è una necessità dettata da vincoli geopolitici più che da scelte tecnologiche.
L'incremento del 30% nell'utilizzo medio degli acceleratori non è un dettaglio marginale in un settore dove il costo del calcolo AI rappresenta una voce di spesa sempre più critica. Data center e cloud provider cinesi che operano con mix di hardware diversificati potrebbero trovare in Flex:ai uno strumento per ridurre i costi operativi e migliorare il ritorno sull'investimento in silicio. La virtualizzazione delle risorse computazionali permette inoltre di gestire con maggiore flessibilità picchi di domanda e workload dinamici, caratteristici dei moderni pipeline di training per large language model e reti neurali complesse.
Resta da verificare sul campo l'efficacia reale della piattaforma e la sua capacità di integrarsi con gli stack software già consolidati nell'ecosistema AI globale. La disponibilità open-source attraverso ModelEngine dovrebbe favorire l'adozione e la verifica indipendente delle prestazioni dichiarate. Nel frattempo, Flex:ai si configura come l'ennesima dimostrazione della determinazione cinese a sviluppare un ecosistema AI autonomo, capace di competere anche in condizioni di accesso limitato alle tecnologie di punta occidentali.