Outage di AWS: l'azienda spiega l'origine del guasto in us-east-1

Ieri un'interruzione di servizio ha paralizzato per ore numerosi servizi digitali in tutto il mondo. Si è trattato di un guasto interno nella regione US-EAST-1 di Amazon Web Services (AWS), il cluster più grande della società in Virginia.

L'incidente ha avuto ripercussioni globali, anche in Italia, colpendo applicazioni di social media, gaming, piattaforme finanziarie e i servizi interni di Amazon stessa, tra cui Alexa e Ring. I primi segnali di malfunzionamento sono emersi nelle prime ore del mattino, quando AWS ha iniziato a investigare su "tassi di errore e latenze aumentati per molteplici servizi".

La natura del guasto e i risvolti sulla business continuity

Sebbene il problema di fondo sia stato "mitigato" nell'arco della giornata, i disagi hanno persistito per molte ore a causa di un backlog di richieste in coda che il sistema ha dovuto elaborare. L'episodio ha ancora una volta messo in luce l'estrema vulnerabilità dell'economia digitale, la cui dorsale è oggi retta da un pugno di hyperscaler.

Quando un componente cruciale come la risoluzione DNS di una regione AWS fallisce, l'effetto domino è inevitabile e globale, rendendo l'interruzione la più significativa da un malfunzionamento di CrowdStrike l'anno precedente.

Questo è il terzo incidente significativo che coinvolge il cluster US-EAST-1 negli ultimi cinque anni. Più che sufficiente per fermarsi e riflettere sul modello di utilizzo, e sull'opportunità di affidarsi a un solo fornitore - sia pure uno "forte" come AWS. Bisogna, chiaramente, concentrarsi anche e soprattutto su come garantire la resilienza.

Nonostante l'alta affidabilità promessa, il rischio strutturale derivante dall'eccessiva centralizzazione impone l'adozione di un approccio multi-cloud o multi-regionale per mitigare l'impatto di simili guasti.

Nonostante l'alta affidabilità promessa, il rischio strutturale derivante dall'eccessiva centralizzazione impone l'adozione di un approccio multi-cloud o multi-regionale.

La sfida del management tra efficienza e ridondanza

Per i professionisti IT e il management, l'episodio ripropone il dilemma tra efficienza e ridondanza. La scelta di non disperdere risorse su infrastrutture alternative è dettata da logiche di ottimizzazione dei costi e di performance, ma espone a un inaccettabile rischio sistemico. Il guasto di AWS è un monito che sposta il focus dalla visione culturale del cloud come soluzione universale alla necessità di una sua governance più prudente e diversificata.

L'episodio ripropone il dilemma tra efficienza e ridondanza, esponendo a un inaccettabile rischio sistemico.

Bisogna rivedere i piani di business continuity e includere scenari che contemplino il down prolungato del fornitore cloud primario. È sicuramente uno scenario da incubo, ma come sempre prevenire è meglio che curare.

Il dibattito non deve concentrarsi solo sulle tempistiche di ripristino di AWS, ma sulla capacità del sistema globale di adottare rapidamente soluzioni di failover automatiche, garantendo che i dati e le applicazioni siano realmente accessibili anche quando il backbone digitale vacilla.

Le notizie più lette

4 Commenti

⚠️ Stai commentando come Ospite . Vuoi accedere?

Invia

Per commentare come utente ospite, clicca cerchi

Cliccati: 0 /

Reset

cignox1

Io ho perso mezz'ora per cercare di capire perché non riuscivo piú ad accedere a Postaman XD
Ho pensato ad un problema mio perché erano giá alcuni giorni che mi chiedeva l'accesso nonostante fossi giá loggato... solo dopo un pó ho scoperto quello che stava succedendo e ho fatto 2+2, e infatti nel pomeriggio ha ripreso a funzionare.
Questo peró é l'unico problema che ho avuto, la mia vita digitale, nonostante il lavoro che faccio, é modesta.

Questo commento è stato nascosto automaticamente.

Lag King

Il servizio auth.docker.io ha smesso di funzionare con il classico errore 503 servizio non disponibile e li il delirio perché non c'è verso di avviare un docker in locale se prima non esegue il check del digest online, poi perplexity pro down, al login ricevevo access denied, reddit funzionava a singhiozzi , quindi oltre a essere bloccato a lavoro, non riuscivo neanche a informarmi su eventuali problemi esterni o quanto meno neanche cazzeggiare. Sono stati minuti inquietanti, se dovesse succedere per motivi più seri (tipo un inizio di una guerra preceduta da un down su scala globale) saremmo all'improvviso costretti a vivere l'era pre IT tech se non pre elettricità. Inquietante, e poi aivoglia a fare dark humors