La regione US-EAST-1 di Amazon Web Services continua a manifestare problemi di stabilità, con un nuovo incidente verificatosi il 28 ottobre che ha riacceso i riflettori sulla fragilità delle dipendenze interne dell'infrastruttura cloud del colosso di Seattle. L'episodio arriva a pochi giorni dal massiccio disservizio della settimana precedente, sollevando interrogativi sulla resilienza di uno dei pilastri del cloud computing mondiale. Questa volta il problema ha colpito principalmente il servizio Elastic Container Service e l'area di disponibilità use1-az2, con effetti a cascata su numerosi altri servizi collegati.
La sequenza degli eventi è iniziata alle 3:36 del pomeriggio ora del Pacifico, quando Amazon ha comunicato ai propri clienti che alcuni avvii di istanze EC2 stavano registrando latenze anomale nell'availability zone interessata. Il gigante del cloud ha implementato una limitazione delle richieste di risorse EC2, consigliando agli utenti di riprovare le operazioni fallite. La natura del problema, tuttavia, si è rivelata più complessa di quanto inizialmente apparisse.
Il nodo centrale della questione risiede nel malfunzionamento di alcune "celle" del servizio ECS nella regione US-EAST-1. Queste celle rappresentano unità operative critiche per il funzionamento dei container, e un numero ristretto di esse ha iniziato a mostrare tassi di errore elevati durante il lancio di nuovi task. La situazione si è aggravata quando anche i task già in esecuzione hanno cominciato a interrompersi inaspettatamente, mentre alcune istanze di container perdevano la connessione con ECS, provocando ulteriori interruzioni.
L'effetto domino ha coinvolto anche EMR Serverless, il servizio che Amazon mette a disposizione per l'esecuzione di strumenti per l'analisi di grandi volumi di dati come Hadoop e Spark. Il collegamento tra i diversi servizi è emerso con chiarezza quando AWS ha rivelato che EMR Serverless mantiene un pool di cluster ECS "caldi" per rispondere rapidamente alle richieste dei clienti, e alcuni di questi cluster operavano proprio nelle celle danneggiate. L'azienda ha dovuto quindi avviare un processo di rigenerazione di questi pool con cluster funzionanti.
Alle 5:31 del pomeriggio AWS ha fornito un aggiornamento più dettagliato, spiegando che i progressi nel ripristino delle celle ECS compromesse non erano ancora visibili esternamente. Il colosso del cloud ha comunicato di aver bloccato nuovi lanci e task sui cluster interessati, mentre alcuni servizi come Glue stavano mostrando segnali di recupero nei tassi di errore, pur continuando a sperimentare latenze superiori al normale. La stima iniziale per una risoluzione completa indicava un intervallo di 2-3 ore.
Complessivamente l'incidente ha colpito dieci servizi AWS, tra cui App Runner, Batch, CodeBuild, Fargate, Glue, oltre a EC2, ECS e il servizio Elastic Kubernetes. Tuttavia, la particolare architettura di US-EAST-1, che comprende sei zone di disponibilità distinte, ha probabilmente mitigato l'impatto complessivo. I clienti che avevano configurato le proprie applicazioni per distribuire le risorse su più zone hanno potuto contare su alternative funzionanti, evitando interruzioni totali del servizio.
Ciò che preoccupa maggiormente gli osservatori del settore è la ricorrenza di problemi legati alle dipendenze interne dell'ecosistema AWS. L'incidente della settimana precedente era stato causato proprio dalla dipendenza di numerosi servizi dal database DynamoDB, mentre questa volta è emerso come EMR Serverless dipenda criticamente da ECS. Questa concatenazione di servizi interconnessi rappresenta un punto di vulnerabilità sistemica che può trasformare un problema circoscritto in un'interruzione più ampia.
Amazon non ha fornito dettagli precisi sulle cause tecniche dell'incidente, limitandosi a comunicare lo stato dei ripristini attraverso la propria pagina di status. L'ultimo aggiornamento, pubblicato alle 10:57 di sera ora del Pacifico, ha confermato la risoluzione del problema. Nonostante la gravità potenziale dell'incidente, molti utenti potrebbero non aver sperimentato disservizi significativi grazie alla ridondanza geografica e alla disponibilità di risorse alternative nella stessa regione.