Alibaba, ha ridotto le interruzioni di servizio del 92%, mentre i costi di bilanciamento del carico sono diminuiti del 18,9%. C' stato anche un un significativo miglioramento delle prestazioni delle schede di rete intelligenti attraverso la ridistribuzione dei carichi di lavoro. Tutto questo grazie a soluzioni innovative sviluppate in proprio, ma che chiunque può provare a replicare.
ZooRoute, la soluzione sviluppata dai ricercatori di Alibaba, ricorda le strategie di ridondanza utilizzate nell'aviazione civile: invece di aspettare che si verifichi un guasto per poi cercare percorsi alternativi, il sistema effettua costantemente sondaggi per identificare in anticipo le rotte funzionanti disponibili.
In questo modo di riducono molto i tempi di correzione rispetto alla metodologia tradizionale di gestione dei guasti di rete, che include il rerouting veloce e l'ingegneria del traffico; può richiedere da alcuni secondi fino a diversi minuti per ripristinare i flussi di dati. Questo intervallo temporale, apparentemente breve, risulta inaccettabile per molte applicazioni critiche che operano nel cloud.
ZooRoute è stato utilizzato per 18 mesi consecutivi, dimostrando la sua affidabilità in ambiente di produzione e riducendo il tempo cumulativo di interruzioni del 92,71%.
La seconda innovazione presentata da Alibaba si chiama Hermes e riguarda il modo in cui vengono gestiti i bilanciatori di carico di livello 7. Questi componenti, fondamentali per mantenere operative le reti cloud, tradizionalmente si affidano a meccanismi di notifica degli eventi I/O come epoll per distribuire le connessioni dal kernel agli worker nello spazio utente.
La soluzione sviluppata sfrutta la tecnologia eBPF, che consente ai carichi di lavoro di operare con gli stessi privilegi dei processi del kernel Linux, per analizzare e filtrare le richieste provenienti dai worker, determinando quali meritino priorità e programmando di conseguenza le attività. Questo approccio ha permesso di ridurre la deviazione standard dell'utilizzo della CPU per worker e dei conteggi delle connessioni rispettivamente del 90% e del 99,4%.
SmartNIC: quando l'hardware diventa intelligente
Il terzo pilastro dell'innovazione di Alibaba riguarda l'ottimizzazione delle SmartNIC, quelle schede di rete dotate di CPU che i grandi operatori cloud utilizzano per eseguire i carichi di lavoro di rete e storage, liberando così le CPU principali per le applicazioni dei clienti. Il sistema Nezha rappresenta un cambio di paradigma nella gestione di questi componenti hardware.
L'approccio di Nezha consiste nell'identificare le SmartNIC sottoutilizzate e redistribuire verso di esse i carichi di lavoro provenienti da quelle sovraccariche. Questa strategia di load sharing distribuito ha dimostrato di essere economicamente vantaggiosa, richiedendo investimenti molto inferiori rispetto al deployment di nuovi dispositivi hardware.
Le tre innovazioni saranno presentate ufficialmente durante la conferenza SIGCOMM, che si terrà a Coimbra, in Portogallo, a partire dall'8 settembre.