Parliamo di TU102 e GeForce RTX 2080 Ti

Nvidia ha definito Turing il suo più grande passo avanti sul fronte delle architetture grafiche da oltre 10 anni a questa parte. A dare forza a questa affermazione troviamo una serie di nuove caratteristiche volte a offrire maggiori prestazioni nei giochi odierni, l'arrivo dell'intelligenza artificiale nel settore della grafica su desktop, il ray tracing in tempo reale, l'accelerazione dello streaming video e il supporto alla realtà virtuale di prossima generazione.

Tutte queste caratteristiche alzano l'asticella delle aspettative, ma c'è un problema: la maggior parte delle nuove caratteristiche non può essere testata. Stiamo ricevendo le prime schede GeForce RTX 2080 Ti e 2080 nei nostri laboratori, ma Nvidia non ha ancora distribuito i driver necessari. Al momento non possiamo dirvi come si comporteranno le schede nella nostra suite di test.

geforce rtx intro
Clicca per ingrandire

Ciò che possiamo illustrarvi sono le caratteristiche dell'architettura Turing. Possiamo parlarvi delle prime tre GPU Turing chiamate TU102, TU104 e TU106, e delle schede Founders Edition basate su tali processori.

Anche senza test è piuttosto chiaro che le GeForce RTX rappresenteranno le schede grafiche più veloci del mercato. Ciò che non è altrettanto chiaro, invece, è se i prezzi più alti (spaziano da 650 a 1250 euro) saranno giustificati oppure no. Per gli appassionati sarà meglio aggiornare subito o attendere la diffusione del ray tracing? Lo scopriremo nel prossimo futuro. Per ora concentriamoci sul lato tecnico delle nuove GPU.

Pagina precedente

Com'è fatta la GPU Nvidia TU102 Turing

La GPU Turing di punta si chiama TU102, un core grafico che copre un'area di 754 millimetri quadrati. Rappresenta il cuore della GeForce RTX 2080 Ti. Al suo interno ci sono 18,6 miliardi di transistor prodotti con processo a 12 nanometri FinFET da TSMC.

Di solito Nvidia non presenta la GPU più potente della nuova serie al debutto dell'architettura. L'azienda statunitense ha però voluto puntare molto sul ray tracing in tempo reale, catalizzando l'attenzione degli appassionati, e perciò deve assicurarsi di avere prodotti in grado di assicurare un frame rate adeguato. Per questo è cruciale per Nvidia mettere il TU102 nelle mani dei primi acquirenti.

gpu tu102 turing
Clicca per ingrandire

Rispetto al GP102, la GPU della GTX 1080 Ti per intenderci, TU102 è il 60% più grande e conta un numero di transistor il 55% maggiore. Non si tratta però della GPU Nvidia più grande in assoluto. Anche la più potente GPU Turing è eclissata dal GV100 basato su architettura Volta, un chip da 21,1 miliardi di transistor in un'area di 815 mm2. Quella GPU è stata introdotta nel 2017 in ambito datacenter sulla Tesla V100 e si può rintracciare sulla Titan V e la Quadro GV100.

TU102 si rivolge a un mercato diverso rispetto a GV100, ed è quindi accompagnato da un elenco di risorse differente. È vero che alcuni elementi di Turing derivano dal lavoro svolto da Nvidia in Volta / GV100, ma le parti dell'architettura che non portano vantaggi nel gaming o non sono economicamente convenienti in ambito desktop sono state deliberatamente eliminate.

Ad esempio, ogni Volta Streaming Multiprocessor (SM) include 32 core FP64 per velocizzare i calcoli a doppia precisione, per un totale di 2688 core FP64 all'interno di GV100. Questi core però non sono davvero utili nei giochi e richiedono molto spazio sul die, quindi Nvidia li ha eliminati tutti tranne due da ogni Turing Streaming Multiprocessor.

Di conseguenza le prestazioni a doppia precisione di TU102 sono un trentaduesimo di quelle a singola precisione (FP32). La presenza dei core FP64 in numero minimo è sufficiente a mantenere la compatibilità con i software che ne fanno uso.

Similmente anche gli otto controller di memoria di GV100 collegati a quattro stack di HBM2 sarebbero risultati molto costosi da inserire in una scheda gaming (chiedete ad AMD per conferma). Di conseguenza Nvidia ha optato per usare memoria GDDR6 di Micron, contenendo i costi ma anche garantendo un grande aumento del bandwidth rispetto alle precedenti soluzioni Pascal.

Un processore TU102 completo è dotato di sei Graphics Processing Clusters (GPCs) composti da un Raster Engine e sei Texture Processing Clusters (TPCs). Ogni TPC integra un PolyMorph Engine (pipeline geometrica a funzione fissa) e due Streaming Multiprocessors (SMs). A livello degli SM abbiamo 64 CUDA core, otto Tensor core, un RT core, quattro unità texture, 16 unità load/store, uno spazio per il file di registro di 256 KB, quattro cache L0 instruction e 96 KB di memoria configurabili come cache L1 o memoria condivisa.

gpu tu102 turing diagramma
Clicca per ingrandire

Sommando il tutto si ottengono: 72 SM, 4608 CUDA core, 576 Tensor core, 72 RT core, 288 unità texture e 36 PolyMorph engine.

Queste risorse sono alimentate da 12 controller di memoria GDDR6 a 32 bit, ognuno collegato a otto cluster ROP e 512 KB di cache L2 per un bus di memoria complessivo di 384 bit, 96 ROPs e 6 MB di cache L2.

Specifiche tecniche TU102 a bordo della RTX 2080 Ti

Il TU102 a bordo della GeForce RTX 2080 Ti non è il processore nella veste completa. Che Nvidia volesse lasciare spazio a una futura Titan o che sia stata costretta a usare un chip meno potente a causa delle iniziali rese produttive, non lo sappiamo. Di fatto però la RTX 2080 Ti ha due TPC disabilitati, il che ci lascia con una scheda dotata di 4352 CUDA core, 544 Tensor core, 68 RT core, 544 unità texture e 34 PolyMorph engine.

geforce rtx 2080 ti
Clicca per ingrandire

A questo si aggiunge il fatto che Nvidia ha disabilitato uno dei controller di memoria a 32 bit di TU102, creando un bus aggregato a 352 bit che sposta i dati verso 88 ROPs e 5,5 MB di cache L2. Nvidia accompagna la GPU con moduli di memoria Micron MT61K256M32JE-14:A. Sul PCB della RTX 2080 Ti ne contiamo 11, il che lascia un posto vacante.

Cionondimeno il bandwidth di picco teorico è aumentato in modo netto rispetto alle schede di precedente generazione a causa della maggiore velocità della GDDR6: a 14 Gbps su un'interfaccia a 352 bit avrete ben 616 GB/s. Di contro la GDDR5X a 11 Gbps sulla GeForce GTX 1080 Ti produce un bandwidth di 484 GB/s.

  GeForce RTX 2080 Ti FE GeForce GTX 1080 Ti FE
Architettura (GPU) Turing (TU102) Pascal (GP102)
CUDA core 4352 3584
Potenza FP32 di picco 14.2 TFLOPS 11.3 TFLOPS
Tensor Core 544 -
RT Core 68 -
Unità texture 272 224
Freq. base GPU 1350 MHz 1480 MHz
Freq. GPU Boost 1635 MHz 1582 MHz
Memoria 11GB GDDR6 11GB GDDR5X
Bus 352-bit 352-bit
Bandwidth memoria 616 GB/s 484 GB/s
ROPs 88 88
Cache L2 5.5MB 2.75MB
TDP 260W 250W
Numero transistor 18,6 miliardi 12 miliardi
Dimensione die 754 mm² 471 mm²
Supporto SLI Sì (x8 NVLink, x2) Sì (MIO)

Per quanto riguarda la scheda in versione Founders Edition, abbiamo una frequenza base della GPU di 1350 MHz che sale fino a 1635 MHz in GPU Boost, fintanto che è assicurato un buon raffreddamento. E dato che Nvidia indica le prestazioni di picco avvalendosi della frequenza GPU Boost, la RTX 2080 Ti può garantire una potenza di 14,2 TFLOPs con calcoli a singola precisione.

La specifica di riferimento generale invece indica una frequenza GPU Boost di 1545 MHz e un TDP leggermente inferiore. Infatti, mentre l'overclock di fabbrica delle Founders Edition impone un TDP di 260 W, in questo caso si scende a circa 250 W.

Entrambe le configurazioni hanno due interfacce NVLink per la connettività multi-GPU. Di questa tecnologia parleremo in maggior dettaglio successivamente, ma in breve ogni collegamento x8 permette 50 GB/s di bandwidth bidirezionale per supportare risoluzioni più alte e refresh rate più veloci. Sulla GeForce RTX 2080 Ti sono necessari 100 GB/s di throughput totali per usare monitor 8K in modalità Surround.

TU104 e GeForce RTX 2080

Com'è fatta la GPU Nvidia TU104 Turing

In modo simile al TU102 anche il TU104 è prodotto da TSMC con processo a 12 nanometri FinFET. Il suo minor numero di transistor, pari a 13,6 miliardi, porta ad avere un die più piccolo di 545 mm2. Già, piccolo ma per modo di dire. TU104 è comunque più grande di GP102 (471 mm2) e ha una dimensione simile al GK110 del 2013 a bordo della GeForce GTX Titan.

gpu tu104 turing diagramma
Clicca per ingrandire

TU104 è realizzato con gli stessi blocchi fondamentali del TU102; ne ha solo di meno. Gli Streaming Multiprocessors hanno ancora 64 CUDA core, otto Tensor core, un RT core, quattro unità texture, 16 unità load/store, 256 KB di spazio di registro e 96 KB di cache L1/memoria condivisa. I TPC sono ancora formati da due SM e un PolyMorph geometry engine. Qui però troviamo quattro TPC per GPC e sei GPC in tutto il processore. Perciò un TU104 completamente abilitato ha 48 SM, 3072 CUDA core, 384 Tensor core, 48 RT core, 192 unità texture e 24 PolyMorph engine.

Un backend allo stesso modo limitato nelle risorse alimenta le risorse di calcolo tramite otto controller di memoria a 32 bit GDDR6 (256 bit totali) collegati a 64 ROPs e 4 MB di cache L2.

TU104 perde anche un collegamento NVLink, il che lo limita a un collegamento x8 e 50 GB/s di throughput bidirezionale.

Specifiche tecniche TU104 a bordo della RTX 2080

Dopo aver visto la RTX 2080 Ti offrire prestazioni rispettabili in Battlefield V in Full HD con ray tracing attivo non possiamo che domandarci se la RTX 2080 abbia sufficiente potenza per mantenere frame rate giocabili con il ray tracing attivo.

geforce rtx 2080
Clicca per ingrandire

Un TU104 completo è limitato a 48 RT core rispetto ai 68 del TU102. Poiché però Nvidia ha spento un TPC di TU104 per creare la GeForce RTX 2080, si perdono un altro paio di RT core (insieme a 128 CUDA core, otto TMU, 16 Tensor core e così via).

  GeForce RTX 2080 FE GeForce GTX 1080 FE
Architettura (GPU) Turing (TU104) Pascal (GP104)
CUDA core 2944 2560
Potenza FP32 di picco 10.6 TFLOPS 8.9 TFLOPS
Tensor Core 368 -
RT Core 46 -
Unità texture 184 160
Freq. base GPU 1515 MHz 1607 MHz
Freq. GPU Boost 1800 MHz 1733 MHz
Memoria 8GB GDDR6 8GB GDDR5X
Bus 256-bit 256-bit
Bandwidth memoria 448 GB/s 320 GB/s
ROPs 64 64
Cache L2 4MB 2MB
TDP 225W 180W
Numero transistor 13,6 miliardi 7,2 miliardi
Dimensione die 545 mm² 314 mm²
Supporto SLI Sì (x8 NVLink) Sì (MIO)

La GeForce RTX 2080 conta quindi su 46 SM con 2944 CUDA core, 368 Tensor core, 46 RT core, 184 unità texture, 64 ROPs e 4 MB di cache L2. 8 GB di memoria GDDR6 a 14 Gbps su un bus a 256 bit spostano 448 GB/s di dati, aggiungendo oltre 100 GB/s di bandwidth rispetto alla GTX 1080.

Le RTX 2080 di riferimento e la Founders Edition hanno una frequenza base di 1515 MHz. Il modello overcloccato di Nvidia ha un GPU Boost a 1800 MHz, mentre la specifica di riferimento è 1710 MHz. Le prestazioni di calcolo di picco FP32 arrivano a 10,6 TFLOPs, un valore che pone la GeForce RTX 2080 Founders Edition dietro la GeForce GTX 1080 Ti (11,3 TFLOPS), ma ben davanti alla GeForce GTX 1080 (8,9 TFLOPS).

Come già visto per la RTX 2080 Ti, anche nel caso della RTX 2080 il modello Founders Edition, più veloce, richiede più energia. Il suo TDP di 225 W è 10 W più alto della GeForce RTX 2080 di riferimento e 45 W sopra alla GeForce GTX 1080.

Continua a pagina 3

Pubblicità

AREE TEMATICHE