Tesla V100, la prima scheda con architettura Volta GV100

Nvidia ha annunciato nel corso della GTC 2017 la prima soluzione basata su architettura Volta. Si tratta di una scheda acceleratrice Tesla che prende il nome di Tesla V100. Debutterà quest'anno, nel corso del terzo trimestre.

tesla v100 volta nvidia 03 — Jen-Hsun Huang annuncia Tesla V100

La GPU GV100 occupa un'area di 815 mm2, conta 21,1 miliardi di transistor e 5120 CUDA core (almeno sulla Tesla V100 che ha 80 SM attivi).

In realtà un GV100 nella sua massima espressione ha sei GPC, 84 SM Volta, 42 TPC (ognuno con due SM) e otto controller a 512 bit (4096 bit totali). Ogni SM integra 64 core FP32, 64 core INT32, 32 core FP64 e 8 Tensor Core. Ogni SM è dotato anche di quattro unità texture.

Grazie agli 84 SM, il chip conta perciò un totale di 5376 core FP32, 5376 core INT32, 2688 core FP64, 672 core Tensor e 336 unità texture. Ogni controller è collegato a 768 KB di cache L2 e ogni stack di HBM2 è controllato da un paio di controller di memoria. Una GPU GV100 completa include 6144 KB di cache L2.

GV100 è realizzato con processo produttivo a 12 nanometri FFN da TSMC. Accanto al chip troviamo 16 GB di memoria HBM2 a 900 GB/s prodotti da Samsung. La scheda ha un'interfaccia NVLink di seconda generazione a 300 GB/s.

	Tesla K40	Tesla M40	Tesla P100	Tesla V100
GPU	GK110 (Kepler)	GM200 (Maxwell)	GP100 (Pascal)	GV100 (Volta)
SM	15	24	56	80
TPC	15	24	28	40
Core FP32 / SM	192	128	64	64
Core FP32 / GPU	2880	3072	3584	5120
Core FP64 / SM	64	4	32	32
Core FP64 / GPU	960	96	1792	2560
Tensor Core / SM	NA	NA	NA	8
Tensor Core / GPU	NA	NA	NA	640
GPU Boost Clock	810/875 MHz	1114 MHz	1480 MHz	1455 MHz
FP32 TFLOP/s picco	5.04	6.8	10.6	15
FP64 TFLOP/s picco	1.68	2.1	5.3	7.5
Tensor Core TFLOP/s picco	NA	NA	NA	120
Texture Unit	240	192	224	320
Bus memoria	384-bit GDDR5	384-bit GDDR5	4096-bit HBM2	4096-bit HBM2
Memoria	fino a 12 GB	fino a 24 GB	16 GB	16 GB
Cache L2	1536 KB	3072 KB	4096 KB	6144 KB
Memoria condivisa / SM	16 KB/32 KB/48 KB	96 KB	64 KB	configurabile fino a 96 KB
Dimensione file registro / SM	256 KB	256 KB	256 KB	256KB
Dimensione file registro / GPU	3840 KB	6144 KB	14336 KB	20480 KB
TDP	235 Watt	250 Watt	300 Watt	300 Watt
Transistor	7,1 miliardi	8 miliardi	15,3 miliardi	21,1 miliardi
Dimensione die GPU	551 mm²	601 mm²	610 mm²	815 mm²
Processo produttivo	28 nm	28 nm	16 nm FinFET+	12 nm FFN

Per riferimento, ricordiamo che l'attuale GP100 basato su architettura Pascal è un chip da 610 mm2 con 15,3 miliardi di transistor e 3840 CUDA core, ed è creato con processo a 16 nanometri FinFET. Anche quella GPU è accoppiata a memoria HBM2, ma con un bandwidth di picco di 720 GB/s.

Nvidia ha investito 3 miliardi di dollari in ricerca e sviluppo per arrivare a creare l'architettura Volta e la GPU GV100. Il chip offre una potenza di 15 teraflops con calcoli a singola precisione e 7,5 teraflops con calcoli a doppia precisione.

tesla v100 volta nvidia 02 — Clicca per ingrandire

Come si può notare dalle specifiche, GV100 ha al suo interno quelli che Nvidia definisce "Tensor core", dedicati all'allenamento delle reti neurali. Grazie a questi core Tesla V100 raggiunge prestazioni fino a 12 volte maggiori rispetto ai prodotti basati su architettura Pascal con operazioni FP32 e fino a 6 volte maggiori con calcoli FP16. All'interno del GV100 a bordo della Tesla V100, che ribadiamo è "castrato" rispetto alla configurazione migliore, ci sono 640 Tensor core.

Oltre alla scheda in versione "mezzanina", Nvidia ha annunciato anche due versioni PCI Express di V100 (una la vedete in foto). La prima è una scheda dual-slot con TDP di 300 watt, mentre la seconda è una scheda a singolo slot da 150 watt chiamata "Tesla V100 for Hyperscale Inference". Quest'ultima è pensata per configurazioni server dense e si presume, in base al TDP, che lavori a frequenze minori e abbia alcune caratteristiche del chip disattivate.