Amazon Web Services (AWS) ha reso noto il lancio di una nuova funzionalità progettata per rafforzare la resilienza del Domain Name System (DNS) in risposta alle ricorrenti interruzioni della sua infrastruttura, in particolare quelle che affliggono la regione chiave di US-EAST-1, in Virginia - una di queste interruzioni di recente è stata particolarmente grave.
Con la nuova soluzione si spera di mitigare il rischio di blocco totale, offrendo alle aziende un modo per recuperare in tempi più brevi quando il cuore pulsante del suo cloud vacilla.
I guasti nella regione US East, il più grande cluster di AWS e spesso punto di controllo centrale, non sono eventi isolati, ma ricorrenze che mettono in luce una fragilità sistemica dell’architettura cloud globale. L'instabilità di questa regione, frequentemente la causa scatenante di interruzioni a cascata, richiede una risposta che vada oltre la semplice riparazione post-incidente.
Il nuovo workaround offre in sostanza un backstop per il DNS, garantendo ai clienti la capacità di effettuare modifiche ai record entro un Recovery Time Objective (RTO) di 60 minuti, anche nel caso in cui US East stia vivendo una disfunzione. La funzionalità risponde a un’esigenza specifica di settori regolamentati come banche e servizi SaaS, che necessitano di poter reindirizzare il traffico verso risorse di standby in altre regioni con una velocità prima inimmaginabile in queste circostanze. L’obiettivo è chiaro: limitare il blast radius dei guasti interni.
La vera rilevanza di questo annuncio non è nel dato tecnico in sé, ma nel fatto che la società ammetta, implicitamente, la vulnerabilità cronica del suo data center principale. Già un’analisi post-mortem dell'interruzione di ottobre 2025 aveva puntato il dito su un problema di race condition nel sistema di gestione DNS di DynamoDB, evidenziando quanto la risoluzione degli indirizzi sia un punto nevralgico critico per l'intera infrastruttura.
Ben venga il passo avanti di Amazon, ma resta il fatto che buona parte dell’infrastruttura globale, non tutta, dipende da una serie di single point of failure piuttosto rilevanti. Come abbiamo visto, sempre pochi giorni fa, con il caso di CloudFlare, basta che un solo servizio vada in panne per mandare offline migliaia, se non milioni di persone in tutto il mondo.
Superare la dipendenza
La lezione da apprendere quindi non può finire con una nuova funzione per i DNS. Né può finire con AWS: se anche il colosso dovesse risolvere per magia tutte le criticità, ne resterebbero tante altre non gestite da loro. Non è una cura.
La lezione è, tutto sommato, la stessa che ci ripetiamo da decenni. Dipendere da un solo fornitore, o da pochi punti vulnerabili, è la ricetta per un disastro. Dovrebbero saperlo le imprese di ogni dimensione, e a parole lo sappiamo tutti. Eppure abbiamo portato lo stesso errore su scala planetaria.
A livello aziendale, la traduzione significa cloud ibrido, multi-tenant, resilienza. Tutte cose che sembrano più semplici di quello che sembra veramente, e che hanno il problema di essere molto costose. D’altra parte, se ci si trova improvvisamente offline il costo potrebbe essere parecchio più alto.