Tesla V100, la prima scheda con architettura Volta GV100

Nvidia ha annunciato Tesla V100, nuova scheda acceleratrice per compiti di machine learning, deep learning e intelligenza artificiale. A bordo il mastodontico chip GV100 con 21 miliardi di transistor e 5170 CUDA core attivi.

Avatar di Manolo De Agostini

a cura di Manolo De Agostini

Nvidia ha annunciato nel corso della GTC 2017 la prima soluzione basata su architettura Volta. Si tratta di una scheda acceleratrice Tesla che prende il nome di Tesla V100. Debutterà quest'anno, nel corso del terzo trimestre.

tesla v100 volta nvidia 03

Jen-Hsun Huang annuncia Tesla V100

La GPU GV100 occupa un'area di 815 mm2, conta 21,1 miliardi di transistor e 5120 CUDA core (almeno sulla Tesla V100 che ha 80 SM attivi).

In realtà un GV100 nella sua massima espressione ha sei GPC, 84 SM Volta, 42 TPC (ognuno con due SM) e otto controller a 512 bit (4096 bit totali). Ogni SM integra 64 core FP32, 64 core INT32, 32 core FP64 e 8 Tensor Core. Ogni SM è dotato anche di quattro unità texture.

jensen huang gv100

Grazie agli 84 SM, il chip conta perciò un totale di 5376 core FP32, 5376 core INT32, 2688 core FP64, 672 core Tensor e 336 unità texture. Ogni controller è collegato a 768 KB di cache L2 e ogni stack di HBM2 è controllato da un paio di controller di memoria. Una GPU GV100 completa include 6144 KB di cache L2.

nvidia tesla v100

GV100 è realizzato con processo produttivo a 12 nanometri FFN da TSMC. Accanto al chip troviamo 16 GB di memoria HBM2 a 900 GB/s prodotti da Samsung. La scheda ha un'interfaccia NVLink di seconda generazione a 300 GB/s.

  Tesla K40 Tesla M40 Tesla P100 Tesla V100
GPU GK110 (Kepler) GM200 (Maxwell) GP100 (Pascal) GV100 (Volta)
SM 15 24 56 80
TPC 15 24 28 40
Core FP32 / SM 192 128 64 64
Core FP32 / GPU 2880 3072 3584 5120
Core FP64 / SM 64 4 32 32
Core FP64 / GPU 960 96 1792 2560
Tensor Core / SM NA NA NA 8
Tensor Core / GPU NA NA NA 640
GPU Boost Clock 810/875 MHz 1114 MHz 1480 MHz 1455 MHz
FP32 TFLOP/s picco 5.04 6.8 10.6 15
FP64 TFLOP/s picco 1.68 2.1 5.3 7.5
Tensor Core TFLOP/s picco NA NA NA 120
Texture Unit 240 192 224 320
Bus memoria 384-bit GDDR5 384-bit GDDR5 4096-bit HBM2 4096-bit HBM2
Memoria fino a 12 GB fino a 24 GB 16 GB 16 GB
Cache L2 1536 KB 3072 KB 4096 KB 6144 KB
Memoria condivisa / SM 16 KB/32 KB/48 KB 96 KB 64 KB configurabile fino a 96 KB
Dimensione file registro / SM 256 KB 256 KB 256 KB 256KB
Dimensione file registro / GPU 3840 KB 6144 KB 14336 KB 20480 KB
TDP 235 Watt 250 Watt 300 Watt 300 Watt
Transistor 7,1 miliardi 8 miliardi 15,3 miliardi 21,1 miliardi
Dimensione die GPU 551 mm² 601 mm² 610 mm² 815 mm²
Processo produttivo 28 nm 28 nm 16 nm FinFET+ 12 nm FFN

Per riferimento, ricordiamo che l'attuale GP100 basato su architettura Pascal è un chip da 610 mm2 con 15,3 miliardi di transistor e 3840 CUDA core, ed è creato con processo a 16 nanometri FinFET. Anche quella GPU è accoppiata a memoria HBM2, ma con un bandwidth di picco di 720 GB/s.

nvidia gv100

Nvidia ha investito 3 miliardi di dollari in ricerca e sviluppo per arrivare a creare l'architettura Volta e la GPU GV100. Il chip offre una potenza di 15 teraflops con calcoli a singola precisione e 7,5 teraflops con calcoli a doppia precisione.

tesla v100 volta nvidia 02

Clicca per ingrandire

Come si può notare dalle specifiche, GV100 ha al suo interno quelli che Nvidia definisce "Tensor core", dedicati all'allenamento delle reti neurali. Grazie a questi core Tesla V100 raggiunge prestazioni fino a 12 volte maggiori rispetto ai prodotti basati su architettura Pascal con operazioni FP32 e fino a 6 volte maggiori con calcoli FP16. All'interno del GV100 a bordo della Tesla V100, che ribadiamo è "castrato" rispetto alla configurazione migliore, ci sono 640 Tensor core.

tesla volta

Clicca per ingrandire

Oltre alla scheda in versione "mezzanina", Nvidia ha annunciato anche due versioni PCI Express di V100 (una la vedete in foto). La prima è una scheda dual-slot con TDP di 300 watt, mentre la seconda è una scheda a singolo slot da 150 watt chiamata "Tesla V100 for Hyperscale Inference". Quest'ultima è pensata per configurazioni server dense e si presume, in base al TDP, che lavori a frequenze minori e abbia alcune caratteristiche del chip disattivate.