CPU

Due supercomputer cinesi sfondano la barriera Exascale

Due supercomputer cinesi hanno già infranto la famigerata barriera exascale, ma i loro sviluppatori preferiscono tacere per ora. Secondo quanto riferito, entrambi i sistemi sono basati sui processori Phytium e Sunway realizzati ​​in Cina e, se le informazioni sono corrette, ciò pone la regione davanti agli Stati Uniti nel supercalcolo exascale, ma c’è un problema. NextPlatform ha riportato che i due sistemi hanno raggiunto 1,3 ExaFLOPS di picco e circa 1,05 ExaFLOPS (o superiori) in media nel benchmark Linpack nel marzo 2021. Tuttavia, nessuna delle macchine è attualmente presente nella Top 500 dei supercomputer, poiché i loro sviluppatori non vogliono che i subappaltatori dei loro partner si mettano nei guai con il governo degli Stati Uniti.

NextPlatform afferma di aver ottenuto le informazioni da una fonte statunitense che sa cosa sta succedendo in Cina. Se le informazioni sono accurate, la Cina ha battuto gli Stati Uniti di quasi un anno con il suo sistema exascale poiché il supercomputer Frontier di Oak Ridge Leadership Computing Facility inizierà le operazioni solo alla fine del 2021. Tuttavia, ci sono alcuni fattori da considerare. Le prestazioni target di Frontier sono di circa 1,5 TFLOPS, ovvero quasi il 50% in più rispetto alle performance medie dei supercomputer cinesi. Inoltre, si prevede che Frontier consumerà circa 30MW di potenza, mentre uno dei suoi rivali cinesi ha un consumo energetico di circa 35MW. Ultimo ma non meno importante, gli sviluppatori cinesi utilizzano architetture esistenti sviluppate per sistemi e carichi di lavoro su scala PetaFLOPS, che potrebbero non essere ottimali in futuro.

Il primo sistema exascale cinese si trova presso il National Supercomputing Center di Wuxi. Il supercomputer, chiamato Sunway Oceanlite, è stato progettato dal National Research Center of Parallel Computer Engineering and Technology (NRCPC) e si basa su processori ibridi proprietari Sunway. L’architettura della CPU Shenwei/Sunway esiste dal 2016, quando è stato lanciato il supercomputer Sunway TaihuLight alimentato da 40.960 processori Sunway SW26010. La CPU SW26010 utilizza quattro cluster eterogenei (core group – CG) interconnessi mediante un network-on-chip ad alte prestazioni. Ogni CG presenta una Protocol Processing Unit (PPU), un Management Processing Element (MPE) con un motore vettoriale a 256 bit e 64 Compute Processing Element (CPE) con lo stesso motore vettoriale a 256 bit e un controller di memoria DDR3. In totale, ogni SW26010 ha quattro MPE e CPE a 256 bit che supportano la coerenza e funzionano a circa 1,5GHz.

credit: unsplash.com
chip copertina

La Cina prevedeva che aumentando il numero di core MPE e CPE per CPU e alterando la loro architettura (ad esempio, aggiungendo il supporto per le istruzioni vettoriali a 512 bit ai CPE), sarebbe stato possibile costruire una base per un massimo di 4 supercomputer ExaFLOPS utilizzando l’architettura Sunway. Il rapporto afferma che gli ingegneri NRCPC hanno raddoppiato il numero di core per processore (fino a 520 core?) per raddoppiare le prestazioni per socket e hanno prodotto la loro nuova CPU utilizzando una moderna tecnologia di processo per tenere sotto controllo il consumo energetico. Quindi hanno raddoppiato il numero di nodi, introdotto un nuovo sistema di interconnessione e possibilmente un nuovo sistema di storage per arrivare a 1,03 ExaFLOPS utilizzando 42 milioni di core RISC a 64 bit.

Un chiaro vantaggio di un tale approccio è che NRCPC ha mantenuto un’architettura familiare in grado di elaborare carichi di lavoro HPC (High Performance Computing) esistenti e futuri che richiedono FP64 o precisione mista per carichi di lavoro AI/ML. Nel frattempo, quel raddoppio dei core per socket e del numero di socket ha portato a un consumo energetico di 35MW. Questo livello di consumo energetico non è enorme, ma mostra che il supercomputer Oceanlite è notevolmente meno efficiente dal punto di vista energetico rispetto al Frontier di ORNL.

Il secondo supercomputer exascale cinese è la macchina Tianhe-3, situata nel National Supercomputer Center di Guangzhou. Il sistema è alimentato da processori Phytium 2000+ (FTP) basati su ARMv8 progettati principalmente per i tradizionali carichi di lavoro HPC con precisione FP64 completa e gli acceleratori DSP Matrix 2000+ (MTP). Non ci sono informazioni sulle prestazioni medie di Tianhe-3, ma secondo quanto riferito le sue performance Rpeak sono intorno a 1,3 ExaFLOPS, mentre quelle Rmax sono comodamente superiori a 1 ExaFLOPS. Inoltre, non è chiaro quanta energia consumi questo supercomputer. Architettonicamente, Tianhe-3 assomiglia a Tianhe-2A (lanciato nel 2015) che si basava sulle CPU FT-2000 di Phytium e sugli acceleratori DSP Matrix 2000. Per superare 1 ExaFLOPS, gli sviluppatori hanno dovuto aumentare il numero di processori e acceleratori, il che probabilmente implicava la creazione di nuovo die con più core ed elementi di elaborazione realizzati utilizzando un processo di fabbricazione più raffinato.

Per sviluppare i primi supercomputer exascale al mondo, gli scienziati del National Supercomputing Center di Wuxi e del National Supercomputing Center di Guanzhou hanno deciso di andare sul sicuro e di affidarsi alle architetture esistenti. Di conseguenza, gli sviluppatori di Sunway Microelectronics (o Shenwei Microelectronics) e Tianjin Phytium Information Technology hanno progettato con successo chip appropriati e li hanno prodotti utilizzando nodi contemporanei. Non è chiaro quali tecnologie di processo siano state utilizzate per realizzare i nuovi chip, anche se possiamo ipotizzare processi comprovati di classe 14 nm/16 nm che hanno buoni rendimenti e utilizzo non sotto stretta sorveglianza da parte del governo degli Stati Uniti. Non è inoltre noto se SMIC, con sede in Cina, o TSMC, con sede a Taiwan, producano i chip. Tuttavia, entrambe le società hanno i loro vantaggi: la prima non può essere controllata in alcun modo dalle autorità statunitensi, mentre la seconda ha comprovate librerie orientate all’HPC per il suo nodo N16.