Avatar di Manolo De Agostini

a cura di Manolo De Agostini

Nvidia ha annunciato la nuova architettura GPU Turing. Il CEO Jen Hsun Huang ha scelto il palcoscenico del SIGGRAPH 2018 per togliere i veli al nuovo progetto che darà vita alle nuove schede video gaming, professionali e non solo in arrivo nei prossimi mesi e per buona parte del 2019.

L'annuncio dell'architettura coincide con quello delle schede video professionali Quadro RTX 8000, RTX 6000 e RTX 5000, di cui potete trovare un focus in quest'altro articolo. Per cui le novità dell'architettura trattate in questo articolo riguardano aspetti che non necessariamente ritroveremo nelle schede video destinate al mercato consumer.

NVIDIA Turing GPU

Nvidia definisce Turing il passo avanti più grande dal 2006, clicca per ingrandire

Complice la progressiva adozione del rendering ibrido (hybrid rendering), che combina il ray tracing con la rasterizzazione per garantire contenuti dall'aspetto sempre più vicino alla realtà, Nvidia ha dotato l'architettura Turing di quelli che chiama RT core, ossia Ray Tracing core. Il nome dice tutto sulla loro finalità.

Secondo Nvidia i chip Turing possono gestire fino a 10 gigarays al secondo, un miglioramento di 25 volte rispetto all'architettura Pascal priva di tali unità dedicate. Più in generale l'azienda dichiara che "usando le capacità di rendering ibrido di Turing i software possono simulare il mondo fisico con una velocità 6 volte maggiore rispetto alla generazione Pascal".

NVIDIA Turing RTX Die Breakup

Clicca per ingrandire

In Turing ritroviamo anche i Tensor core di Volta, ma in una veste migliorata. Come noto, queste unità servono per accelerare carichi di AI e reti neurali, ma saranno utili anche per altro, per esempio coadiuvando gli RT core nel garantire un miglior rapporto tra qualità e prestazioni.

Oltre a RT e Tensor core, Nvidia ha aggiornato anche lo Streaming Multiprocessor (SM) separando i core integer in blocchi a sé stante, anziché inserirli come un aspetto dei core floating point. Secondo Nvidia questo cambiamento velocizza la generazione d'indirizzi e le prestazioni Fused Multiply Add (FMA).

Per quanto riguarda le ALU Nvidia ha confermato che Turing supporta lo shading a velocità variabile, consentendo lo scaling prestazionale degli shader in base alla dimensione del tipo di dato. Sarà anche possibile mettere insieme tante piccole operazioni in un'unica più grande al fine di fare più lavoro nello stesso tempo. Tale capacità sarà particolarmente utile nell'ambito delle reti neurali.

  Transistor Dimensione die
Turing 18,6 miliardi 754mm2
Pascal 11,8 miliardi 471mm2
Volta (V100) 21 miliardi 815 mm2

Lo Streaming Multiprocessor di Turing include anche quella che Nvidia chiama "unified cache architecture". Anche se non ci sono informazioni precise al momento, dovrebbe trattarsi dello stesso tipo di unificazione vista nelle GPU Volta, dove la cache L1 è stata unita alla memoria condivisa. Pur non chiarendo l'altro elemento di paragone, Nvidia afferma che l'architettura cache unificata offre il doppio del bandwidth della generazione precedente (Volta?).

Turing supporta anche nuovi livelli di "precision" per velocizzare carichi legati al mondo delle reti neurali. Oltre alla modalità FP16 introdotta con Volta, i Tensor core di Turing supportano anche INT4 e INT8, rispettivamente 2 e 4 più veloci di FP16. A corredare il tutto l'azienda di Santa Clara ha creato anche Nvidia NGX, un SDK che consente d'integrare le reti neurali nell'elaborazione delle immagini. L'azienda prevede l'uso di reti neurali e tensor core per l'elaborazione di immagini e video, con metodi come il futuro Deep Learning Anti-Aliasing (DLAA).

NVIDIA RTX Software Stack

Clicca per ingrandire

Tra gli aspetti che hanno subito delle modifiche troviamo anche l'encoder video NVENC, che si occupa di svolgere la codifica dei video al posto della CPU. Con Turing arriva il supporto alla codifica 8K HEVC, oltre a un'ottimizzazione generale che consente di avere una qualità simile al passato ma con un bitrate il 25% inferiore.

Le GPU Turing, come ampiamente anticipato, potranno essere affiancate dalle nuove memorie GDDR6 prodotte da Samsung, SK Hynix e Micron. Evoluzione delle GDDR5X, queste memorie offrono alcune migliorie prestazionali e sul fronte dei consumi che potete approfondire in questo articolo. Al momento Nvidia ha scelto come partner Samsung, installando sulle Quadro RTX chip da 16 Gbit con velocità di 14 Gbps.

nvidia rtx
Una scena realizzata con tecnologia Nvidia RTX

Nvidia ha inoltre confermato il supporto ad altre caratteristiche, come NVLink. L'interconnessione permette di usare due schede in parallelo su un collegamento ad alta velocità (100GB/s), favorendo la condivisione dei rispettivi buffer di memoria e delle risorse di calcolo. NVLink, stando a quanto visto in passato, non dovrebbe essere presente su tutti i prodotti Turing.

Per quanto riguarda la realtà virtuale Nvidia ha aggiunto il supporto a VirtualLink. Questo nuovo standard ha l'obiettivo di permettere la connessione dei futuri visori con un singolo cavo, assicurando perciò il passaggio di dati (10 Gbps USB 3.1 Gen2), video (quattro linee DisplayPort HBR3) ed energia (fino a 27 W). Lo standard è sostenuto oltre che da Nvidia anche da AMD, Oculus, Valve e Microsoft, quindi aspettiamoci nuove schede video con VirtualLink e visori compatibili.

NVIDIA Turing GPU Vs Pascal Size

Turing e Pascal a confronto, clicca per ingrandire

Per concludere, qualche numero: Nvidia ha mostrato alcuni dati in una slide relativi a una GPU non meglio identificata. Si parla di un chip da 18,6 miliardi di transistor su 754 mm2 e una frequenza di 1,75 GHz. La configurazione migliore attualmente conosciuta offre 4608 CUDA core e 576 tensor core per una potenza di calcolo di 16 TFLOPs in singola precisione, ovvero il 32% in più della Titan XP e superiore ai 13,8 TFLOPs della Titan V. I Tensor core sono attestati invece a 500 TOPS (trillion operations per second) con calcoli INT4, 125 TFLOPS con quelli FP16 e 250 TOPS con quelli INT8.