Durante la GPU Technology Conference dello scorso aprile Nvidia aveva annunciato la scheda acceleratrice Tesla P100. All'evento l'azienda si concentrò sulla variante con interconnessione NVLink, un bus di nuova generazione che dovrebbe consentire a GPU e CPU di condividere i dati con un bandwidth aggregato di 20 GB/s.
Nel corso della prima giornata dell'International Conference for High Performance Computing la casa di Santa Clara ha annunciato l'esistenza di una variante di Tesla P100 con interconnessione PCI Express. La scheda è basata sulla stessa GPU GP100 con 3584 CUDA core e 224 unità texture (sebbene il chip contenga, nella sua massima espressione 3840 CUDA core e 240 unità texture), prodotta a 16 nanometri FinFET e accompagnata da memoria HBM2.
La differenza con la proposta NVLink riguarda, in primo luogo, le frequenze di lavoro. A causa delle restrizioni al TDP dovute agli ambienti PCI Express, Nvidia ha dovuto ridurre il TDP della scheda da 300 a 250 watt. Per farlo l'azienda ha abbassato la frequenza di lavoro massima da 1480 a 1300 MHz.
Il risultato è che le prestazioni della scheda acceleratrice scendono a 18,7 teraflops per i calcoli half-precision (tipici del deep learning), a 9,3 teraflops per quelli a singola precisione e a 4,7 teraflops in doppia precisione. Di conseguenza, mentre la versione di Tesla P100 con NVLink è destinata ad applicazioni "large scale", il modello con interconnessione PCI Express guarda al mondo delle workstation che devono gestire carichi meno probanti ma comunque complessi - tipici del deep learning.
NVIDIA Tesla con GP GP100 | |||||
---|---|---|---|---|---|
Tesla P100 (NVLink) | Tesla P100 (PCIe, 16 GB) | Tesla P100 (PCIe, 12GB) | |||
Stream Processor | 3584 | 3584 | 3584 | ||
Freq. base | 1328 MHz | ? | ? | ||
Freq. boost | 1480 MHz | 1300 MHz | 1300 MHz | ||
Freq. memoria | 1,4 Gbps HBM2 | 1,4 Gbps HBM2 | 1,4 Gbps HBM2 | ||
Bus | 4096 bit | 4096 bit | 3072 bit | ||
Bandwidth memoria | 720 GB/s | 720 GB/s | 540 GB/s | ||
VRAM | 16 GB | 16 GB | 12 GB | ||
Cache L2 | 4 MB | 4 MB | 3 MB | ||
Half Precision | 21,2 TFLOPS | 18,7 TFLOPS | 18,7 TFLOPS | ||
Single Precision | 10,6 TFLOPS | 9,3 TFLOPS | 9,3 TFLOPS | ||
Double Precision | 5,3 TFLOPS | 4,7 TFLOPS | 4,7 TFLOPS | ||
GPU | GP100 | GP100 | GP100 | ||
Numero transistor | 15.3B | 15.3B | 15.3B | ||
TDP | 300W | 250W | 250W | ||
Form Factor | Mezzanine | PCIe | PCIe | ||
Raffreddamento | ? | Passivo | Passivo | ||
Processo produttivo | TSMC 16 nm FinFET | TSMC 16 nm FinFET | TSMC 16 nm FinFET | ||
Architettura | Pascal | Pascal | Pascal |
Infine, mentre la Tesla P100 NVLink sarà disponibile solo con 16 GB di memoria HBM2, la soluzione PCIe arriverà sul mercato in due versioni, con 16 GB oppure 12 GB di memoria HBM2. Quest'ultima ha un bus a 3072 bit anziché 4096 bit e un bandwidth di 540 GB/s rispetto ai 720 GB/s della soluzione con più memoria. La disponibilità di questa scheda acceleratrice è fissata per il quarto trimestre di quest'anno.
Zotac GeForce GTX 1070 Founders Edition | ||
Palit GeForce GTX 1080 GameRock |