Architettura Volta, ecco Tesla V100

E così siamo arrivati a tempi più recenti. Nel maggio 2017, nel corso della GTC 2017, Nvidia svelò la prima soluzione basata su architettura Volta, la scheda acceleratrice Tesla V100. La GPU GV100 occupava un'area di 815 mm2, contava 21,1 miliardi di transistor e 5120 CUDA core (almeno sulla Tesla V100 con 80 SM attivi).

In realtà un GV100 nella sua massima espressione contava sei GPC, 84 SM Volta, 42 TPC (ognuno con due SM) e otto controller a 512 bit (4096 bit totali). Ogni SM integrava 64 core FP32, 64 core INT32, 32 core FP64 e 8 Tensor Core. Ogni SM aveva anche di quattro unità texture.

Grazie agli 84 SM, il chip contava perciò un totale di 5376 core FP32, 5376 core INT32, 2688 core FP64, 672 core Tensor e 336 unità texture. Ogni controller era collegato a 768 KB di cache L2 e ogni stack di HBM2 veniva controllato da un paio di controller di memoria. Una GPU GV100 completa includeva 6144 KB di cache L2.

Il GV100 fu realizzato con il nuovo processo produttivo a 12 nanometri FFN da TSMC. Accanto al chip c'erano 16 GB di memoria HBM2 a 900 GB/s prodotti da Samsung. La scheda aveva un'interfaccia NVLink di seconda generazione a 300 GB/s.

Per riferimento, ricordiamo che il GP100 basato su architettura Pascal era un chip da 610 mm2 con 15,3 miliardi di transistor e 3840 CUDA core, creato con processo a 16 nanometri FinFET. Anche quella GPU era accoppiata a memoria HBM2, ma con un bandwidth di picco di 720 GB/s.

Nvidia dichiarò di aver investito 3 miliardi di dollari in ricerca e sviluppo per arrivare a creare l'architettura Volta e la GPU GV100. Il chip offriva una potenza di 15 teraflops con calcoli a singola precisione e 7,5 teraflops con calcoli a doppia precisione.

Il GV100 sarà ricordato perché ha introdotto quelli che Nvidia definì "Tensor core", dedicati all'allenamento delle reti neurali. Grazie a questi core Tesla V100 raggiungeva prestazioni fino a 12 volte maggiori rispetto ai prodotti basati su architettura Pascal con operazioni FP32 e fino a 6 volte maggiori con calcoli FP16. All'interno del GV100 a bordo della Tesla V100, che ribadiamo è "castrato" rispetto alla configurazione migliore, c'erano 640 Tensor core.

Dopo la Tesla V100, il chip GV100 fu usato in una scheda professionale della serie Quadro (Quadro GV100) e in una Titan chiamata Titan V, destinata a ricercatori e scienziati di tutto il mondo, e non al gaming.