RTX-OPS: Nvidia s'inventa una nuova unità di misura

Avatar di Andrea Ferrario

a cura di Andrea Ferrario

Editor in Chief

L'aumento della complessità dei chip grafici, che integrano risorse che svolgono funzioni differenti ma influenzano il quadro prestazionale generale, rende sempre più difficile quantificare le loro capacità.

Usiamo già termini come fillrate per confrontare quanti miliardi di pixel o elementi texture una GPU è teoricamente in grado di renderizzare sullo schermo in un secondo.

Con l'aggiunta di Tensor e RT core ai propri Turing Streaming Multiprocessors, Nvidia ha trovato necessario dare vita a un nuovo metro che riesca a riflettere le capacità delle sue pipeline matematiche INT32 e FP32, gli RT core e Tensor core. Non abbiamo intenzione di usare il valore RTX-OPS per ogni confronto, ma dato che Nvidia lo cita, vogliamo almeno spiegare l'equazione che lo compone.

turing frame

Clicca per ingrandire

Il modello RTX-OPS richiede l'uso di tutte le risorse, che è un assunto tanto audace quanto lungimirante. Dopotutto, finché i giochi non adottano ampiamente le capacità di ray tracing e di deep learning di Turing, gli RT core e i Tensor core restano inattivi. Non appena iniziano a essere usati, Nvidia ha sviluppato una propria approssimazione della capacità di calcolo coinvolta in un frame renderizzato da una GPU Turing.

Nel diagramma qui sopra Nvidia mostra che all'incirca l'80% del frame è stato "consumato" dal rendering e il 20% è andato nell'AI. Nella fetta dedicata allo shading c'è una suddivisione di circa 50/50 tra lavoro ray tracing e FP32.

Esaminando ancora più in profondità i CUDA core, abbiamo già detto che Nvidia ha riscontrato circa 36 operazioni INT32 per ogni 100 istruzioni FP32 su una striscia di tracce shader, dando un'idea ragionevole di ciò che accade in una scena "ideale" che sfrutta ogni unità funzionale.

Perciò...

Potenza FP32 = 4352 FP32 core * 1635 MHz (GPU Boost) * 2 = 14.2 TFLOPS

Potenza RT core = 10 TFLOPS per gigaray, assumendo che la GeForce GTX 1080 Ti (11.3 TFLOPS FP32 a 1582 MHz) può generare 1,1 miliardi di raggi usando l'emulazione software = ~100 TFLOPS su una GeForce RTX 2080 Ti capace di generare circa ~10 miliardi di raggi

Istruzioni INT32 al secondo = 4352 INT32 core * 1635 MHz (GPU Boost) * 2 = 14.2 TIPS

Potenza Tensor core = 544 Tensor core * 1635 MHz (GPU Boost) * 64 operazioni in virgola mobile FMA per clock * 2 = 113.8 FP16 Tensor TFLOPS

... siamo in grado di andare a ritroso nei calcoli matematici di Nvidia per vedere come ha ottenuto una specifica di 78 RTX-OPS per la GeForce RTX 2080 Ti Founders Edition:

(14 TFLOPS [FP32] * 80%) + (14 TIPS [INT32] * 28% [~35 operazioni INT32 per ogni 100 operazioni FP32, che occupano fino all'80% del carico]) + (100 TFLOPS [ray tracing] * 40% [metà di 80%]) + (114 TFLOPS [FP16 Tensor] * 20%) = 77.9

Di nuovo, ci sono molte ipotesi in questo modello, e non vediamo alcun modo di usarlo per confronti generazionali o competitivi. Allo stesso tempo, è chiaro che Nvidia voleva un modo per rappresentare le prestazioni in modo olistico e non possiamo criticare l'azienda per averci provato, in particolare perché non ha aggiunto semplicemente le funzionalità di ciascun sottosistema, ma piuttosto ha isolato i singoli contributi a un frame.