Frontier di Oak Ridge National Laboratory è una macchina incredibile, tanto da essere stata indicata come il supercomputer più veloce del mondo. Eppure, oltre a questo record, sembra ne abbia battuto un altro: infatti, il sistema non sarebbe in grado di funzionare un singolo giorno senza problemi hardware che lo rendono praticamente inutilizzabile.

Sulla carta, questo supercomputer è davvero sbalorditivo, con prestazioni di picco fino a 1,684 exaFLOP in FP64 grazie ai processori EPYC Trento a 64 core di AMD, alle GPU Instinct MI250X e alle interconnessioni HEP Slinghsot a 21 MW di potenza. Il sistema è stato realizzato da HPE che ha sfruttato l’architettura Cray EX, progettata per le applicazioni scale-out, in primo luogo proprio per i supercomputer ad altissima velocità.

In pratica, però, la macchina presenta costanti problemi hardware, tanto da non garantire più di 24 ore continuative di funzionamento senza il manifestarsi di errori e altre problematiche, non ideale per i ricercatori che necessitano di raggiungere prestazioni di circa 1 exaFLOP in FP64.

Photo Credit: AMD

La situazione è stata confermata anche da Justin Whitt, direttore del programma OLCF. Pare che le voci relative a possibili problematiche hardware circolassero già da tempo, e qualcuno puntava il dito sull’interconnessione Slingshot, mentre altre indiscrezioni suggerivano che le GPU AMD Instinct MI250X non siano poi così affidabili come previsto.

Tuttavia, non ci sono conferme né smentite su effettive problematiche con Instinct o Slingshot, laddove Whitt ha confermato solo, genericamente, la presenza di diverse difficoltà in ambito hardware. Secondo il direttore, inoltre, sembra che non siano ancora state trovate le cause precise del problema, così come dichiarato a InsideHPC, ribadendo come, a ordini di grandezza del genere, sia abbastanza scontato incorrere in problemi di natura hardware.