Nvidia ha annunciato nel corso della GTC 2017 la prima soluzione basata su architettura Volta. Si tratta di una scheda acceleratrice Tesla che prende il nome di Tesla V100. Debutterà quest'anno, nel corso del terzo trimestre.
La GPU GV100 occupa un'area di 815 mm2, conta 21,1 miliardi di transistor e 5120 CUDA core (almeno sulla Tesla V100 che ha 80 SM attivi).
In realtà un GV100 nella sua massima espressione ha sei GPC, 84 SM Volta, 42 TPC (ognuno con due SM) e otto controller a 512 bit (4096 bit totali). Ogni SM integra 64 core FP32, 64 core INT32, 32 core FP64 e 8 Tensor Core. Ogni SM è dotato anche di quattro unità texture.

Grazie agli 84 SM, il chip conta perciò un totale di 5376 core FP32, 5376 core INT32, 2688 core FP64, 672 core Tensor e 336 unità texture. Ogni controller è collegato a 768 KB di cache L2 e ogni stack di HBM2 è controllato da un paio di controller di memoria. Una GPU GV100 completa include 6144 KB di cache L2.

GV100 è realizzato con processo produttivo a 12 nanometri FFN da TSMC. Accanto al chip troviamo 16 GB di memoria HBM2 a 900 GB/s prodotti da Samsung. La scheda ha un'interfaccia NVLink di seconda generazione a 300 GB/s.
Tesla K40 | Tesla M40 | Tesla P100 | Tesla V100 | |
---|---|---|---|---|
GPU | GK110 (Kepler) | GM200 (Maxwell) | GP100 (Pascal) | GV100 (Volta) |
SM | 15 | 24 | 56 | 80 |
TPC | 15 | 24 | 28 | 40 |
Core FP32 / SM | 192 | 128 | 64 | 64 |
Core FP32 / GPU | 2880 | 3072 | 3584 | 5120 |
Core FP64 / SM | 64 | 4 | 32 | 32 |
Core FP64 / GPU | 960 | 96 | 1792 | 2560 |
Tensor Core / SM | NA | NA | NA | 8 |
Tensor Core / GPU | NA | NA | NA | 640 |
GPU Boost Clock | 810/875 MHz | 1114 MHz | 1480 MHz | 1455 MHz |
FP32 TFLOP/s picco | 5.04 | 6.8 | 10.6 | 15 |
FP64 TFLOP/s picco | 1.68 | 2.1 | 5.3 | 7.5 |
Tensor Core TFLOP/s picco | NA | NA | NA | 120 |
Texture Unit | 240 | 192 | 224 | 320 |
Bus memoria | 384-bit GDDR5 | 384-bit GDDR5 | 4096-bit HBM2 | 4096-bit HBM2 |
Memoria | fino a 12 GB | fino a 24 GB | 16 GB | 16 GB |
Cache L2 | 1536 KB | 3072 KB | 4096 KB | 6144 KB |
Memoria condivisa / SM | 16 KB/32 KB/48 KB | 96 KB | 64 KB | configurabile fino a 96 KB |
Dimensione file registro / SM | 256 KB | 256 KB | 256 KB | 256KB |
Dimensione file registro / GPU | 3840 KB | 6144 KB | 14336 KB | 20480 KB |
TDP | 235 Watt | 250 Watt | 300 Watt | 300 Watt |
Transistor | 7,1 miliardi | 8 miliardi | 15,3 miliardi | 21,1 miliardi |
Dimensione die GPU | 551 mm² | 601 mm² | 610 mm² | 815 mm² |
Processo produttivo | 28 nm | 28 nm | 16 nm FinFET+ | 12 nm FFN |
Per riferimento, ricordiamo che l'attuale GP100 basato su architettura Pascal è un chip da 610 mm2 con 15,3 miliardi di transistor e 3840 CUDA core, ed è creato con processo a 16 nanometri FinFET. Anche quella GPU è accoppiata a memoria HBM2, ma con un bandwidth di picco di 720 GB/s.

Nvidia ha investito 3 miliardi di dollari in ricerca e sviluppo per arrivare a creare l'architettura Volta e la GPU GV100. Il chip offre una potenza di 15 teraflops con calcoli a singola precisione e 7,5 teraflops con calcoli a doppia precisione.
Come si può notare dalle specifiche, GV100 ha al suo interno quelli che Nvidia definisce "Tensor core", dedicati all'allenamento delle reti neurali. Grazie a questi core Tesla V100 raggiunge prestazioni fino a 12 volte maggiori rispetto ai prodotti basati su architettura Pascal con operazioni FP32 e fino a 6 volte maggiori con calcoli FP16. All'interno del GV100 a bordo della Tesla V100, che ribadiamo è "castrato" rispetto alla configurazione migliore, ci sono 640 Tensor core.
Oltre alla scheda in versione "mezzanina", Nvidia ha annunciato anche due versioni PCI Express di V100 (una la vedete in foto). La prima è una scheda dual-slot con TDP di 300 watt, mentre la seconda è una scheda a singolo slot da 150 watt chiamata "Tesla V100 for Hyperscale Inference". Quest'ultima è pensata per configurazioni server dense e si presume, in base al TDP, che lavori a frequenze minori e abbia alcune caratteristiche del chip disattivate.