Ieri un'interruzione di servizio ha paralizzato per ore numerosi servizi digitali in tutto il mondo. Si è trattato di un guasto interno nella regione US-EAST-1 di Amazon Web Services (AWS), il cluster più grande della società in Virginia.
L'incidente ha avuto ripercussioni globali, anche in Italia, colpendo applicazioni di social media, gaming, piattaforme finanziarie e i servizi interni di Amazon stessa, tra cui Alexa e Ring. I primi segnali di malfunzionamento sono emersi nelle prime ore del mattino, quando AWS ha iniziato a investigare su "tassi di errore e latenze aumentati per molteplici servizi".
L'azienda ha successivamente fornito aggiornamenti che hanno circoscritto il problema. La causa scatenante è stata individuata in un problema con il Domain Name System (DNS). In sostanza, il sistema che converte gli indirizzi web in indirizzi IP, numerici e fondamentali per il caricamento di siti e app, non è riuscito a trovare l'indirizzo corretto per l'API di DynamoDB. Quest'ultimo è un database cloud utilizzato per conservare dati degli utenti. Fa parte delle fondamenta imprescindibili di migliaia di applicazioni e, infatti, senza di esso i servizi hanno smesso di funzionare.
La natura del guasto e i risvolti sulla business continuity
Sebbene il problema di fondo sia stato "mitigato" nell'arco della giornata, i disagi hanno persistito per molte ore a causa di un backlog di richieste in coda che il sistema ha dovuto elaborare. L'episodio ha ancora una volta messo in luce l'estrema vulnerabilità dell'economia digitale, la cui dorsale è oggi retta da un pugno di hyperscaler.
Quando un componente cruciale come la risoluzione DNS di una regione AWS fallisce, l'effetto domino è inevitabile e globale, rendendo l'interruzione la più significativa da un malfunzionamento di CrowdStrike l'anno precedente.
Questo è il terzo incidente significativo che coinvolge il cluster US-EAST-1 negli ultimi cinque anni. Più che sufficiente per fermarsi e riflettere sul modello di utilizzo, e sull'opportunità di affidarsi a un solo fornitore - sia pure uno "forte" come AWS. Bisogna, chiaramente, concentrarsi anche e soprattutto su come garantire la resilienza.
Nonostante l'alta affidabilità promessa, il rischio strutturale derivante dall'eccessiva centralizzazione impone l'adozione di un approccio multi-cloud o multi-regionale per mitigare l'impatto di simili guasti.
La sfida del management tra efficienza e ridondanza
Per i professionisti IT e il management, l'episodio ripropone il dilemma tra efficienza e ridondanza. La scelta di non disperdere risorse su infrastrutture alternative è dettata da logiche di ottimizzazione dei costi e di performance, ma espone a un inaccettabile rischio sistemico. Il guasto di AWS è un monito che sposta il focus dalla visione culturale del cloud come soluzione universale alla necessità di una sua governance più prudente e diversificata.
Bisogna rivedere i piani di business continuity e includere scenari che contemplino il down prolungato del fornitore cloud primario. È sicuramente uno scenario da incubo, ma come sempre prevenire è meglio che curare.
Il dibattito non deve concentrarsi solo sulle tempistiche di ripristino di AWS, ma sulla capacità del sistema globale di adottare rapidamente soluzioni di failover automatiche, garantendo che i dati e le applicazioni siano realmente accessibili anche quando il backbone digitale vacilla.