Sguardo a Summit, il supercomputer statunitense del riscatto

Sguardo ravvicinato a un nodo di Summit, supercomputer con il quale gli Stati Uniti vogliono tornare in cima alla classifica Top500.

Avatar di Paul Alcorn

a cura di Paul Alcorn

La Cina ha preso il largo nella Top500, ottenendo non solo il primo posto ma anche il maggior numero di supercomputer in classifica. Gli Stati Uniti cercheranno di rifarsi in parte dallo smacco nel 2018 con Summit, un supercomputer che è in costruzione presso l'Oak Ridge National Laboratory.

L'obiettivo di Summit è più che raddoppiare la potenza di 93 petaFLOPS del cinese Sunway TaihuLight, mettendo a disposizione del mondo accademico una potenza di picco di circa 200 petaFLOPS. Un obiettivo ambizioso considerando che il Sunway TaihuLight è circa 60 petaFLOPS più potente dell'attuale secondo classificato.

nodo summit 04

Clicca per ingrandire

nodo summit 05

Clicca per ingrandire

Nel corso della conferenza SuperComputing 2017 IBM ha mostrato il server Power Systems AC922 raffreddato a liquido, che sarà la spina dorsale del nuovo sistema. Summit promette prestazioni dalle cinque alle dieci volte il suo predecessore, il Titan (quinto classificato nella recente Top500), e per farlo occuperà meno spazio. Titan è basato su 18.688 nodi, mentre Summit riuscirà a garantire maggiori prestazioni con circa 4600 nodi.

nodo summit 03

Clicca per ingrandire

nodo summit 02

Clicca per ingrandire

Ciò implica, a rigor di logica, che ogni nodo sarà in grado di offrire prestazioni maggiori, con oltre 40 teraFLOPS per nodo contro gli 1,4 teraFLOPS di Titan. A garantire così tanta potenza in un singolo nodo sono due processori IBM Power9 e sei GPU Nvidia Volta GV100. Ogni nodo ha anche 512 GB di memoria complessiva tra DDR4 e HBM2, oltre a 1600 GB di RAM non volatile.

nodo summit 01

Clicca per ingrandire

nodo summit 07

Clicca per ingrandire

nodo summit 06

Clicca per ingrandire

Dato che i supercomputer si basano sullo spostamento dei dati ad alta velocità tra i vari componenti, Summit offre numerosi layer in grado di offrire un bandwidth molto elevato. Il sistema ha 96 linee PCI Express 4.0 che sono utili per l'adattatore Mellanox EDR InfiniBand a doppia porta, che ha un throughput massimo teorico di 400 Gb/s. IBM ha misurato un throughput di 392 Gb/s, il doppio del bandwidth di un adattatore PCI Express 3.0.

volta summit 01

Clicca per ingrandire

volta summit 02

Clicca per ingrandire

Le GPU Volta GV100 sono connesse tramite PCIe 3.0 e NVLink 2.0. L'interfaccia NVLink assicura un throughput di 100 GB/s per il traffico tra CPU e GPU e tra GPU e GPU. Le GPU sono disposte in un progetto dual mesh.

IBM ha prodotto anche un modello con quattro GPU che userà per il supercomputer Sierra. Questa variante dovrebbe assicurare un throughput di 150 GB/s per la comunicazione tra GPU e CPU. A causa del numero di GPU inferiore, IBM può indirizzare più collegamenti a CPU e GPU aumentando il throughput.

volta summit 03

Clicca per ingrandire

volta summit 04

Clicca per ingrandire

I processori Power9 hanno otto canali di memoria, per un totale di 16 canali per server che forniscono 340 GB/s di bandwidth aggregato. Ogni nodo Summit permetterà di avere un massimo di 2 TB di memoria DDR4-2666.

ibm power9 01

Clicca per ingrandire

ibm power9 02

Clicca per ingrandire

Per quanto riguarda l'archiviazione si parla di 250 petabyte complessivi con file system General Parallel (GPFS) di IBM, per un bandwidth totale di 2,5 TB/s su tutti e 4600 i nodi. Ogni nodo ha 1600 GB di RAM non volatile che serve come un buffer per assorbire i picchi di dati prima che questi vengano trasferiti al pool di archiviazione primario. Questo aiuta anche ad eludere l'allocazione limitata di throughput per ogni nodo.

ibm power9 03 JPG

Clicca per ingrandire

ibm power9 04

Clicca per ingrandire

Di Nvidia Volta GV100ne abbiamo già parlato, quindi concentriamoci su IBM Power9. Realizzato con processo produttivo a 14 nanometri FinFET di Globalfoundries, conta 8 miliardi di transistor. Al suo interno si contano fino a 24 core e 96 thread. Ogni core esegue quattro thread in parallelo (SMT4), mentre il modello da 12 core esegue otto thread per core (SMT8).

titan vs summit JPG

Clicca per ingrandire

Ogni processore offre 48 linee PCIe 4.0 per un bandwidth bidirezionale di 192 GB/s e otto canali di memoria che supportano fino a 4 TB di memoria DDR4-2666 per socket con 120 GB/s di bandwidth sostenuto. Il processore integra anche 120 MB di cache eDRAM L3 condivisa - blocchi da 10 MB condivisi a gruppi di due core - con un throughput per core fino a 256 GB/s. Il processore offre anche il supporto NVLink 2.0 e CAPI 2.0. Cache, memoria, PCIe e traffico NVLink passano tutti attraverso il processore, che richiede perciò un'interconnessione on-chip adeguata, in questo caso in grado di offrire un bandwidth fino a 7 TB/s.

Nel complesso Summit consumerà 15 MW di energia, 6 MW in più Titan e come il Sunway TaihuLight cinese. Dato il passo avanti prestazionale, Summit si prefigura quindi molto efficiente per la sua categoria. Complessivamente il supercomputer occuperà all'incirca le dimensioni di due campi da basket e richiederà 136 miglia (219 chilometri circa) di cavi.