Nvidia ha presentato Tesla K20 e K20X, due nuovi coprocessori indirizzati al mercato dei High Performance Computing (HPC) che rispondo immediatamente alla gamma FirePro di AMD, ampliata con il modello dual GPU FirePro S1000. L'azienda ufficializza in questo modo i primi prodotti basati su GPU GK110, un superchip da 7,1 miliardi di transistor di cui Nvidia aveva già anticipato parte delle caratteristiche. Tra l'altro le soluzioni della famiglia Tesla K20 sono uno dei fiori all'occhiello del nuovissimo supercomputer Titan da 20 petaflops, installato presso l'Oak Ridge National Leadership Computing Facility (OLCF, Tennessee).
La tabella vi mostra come la differenza tra Tesla K20 e K20X sia prettamente di carattere tecnico, con il modello "X" più veloce grazie a 2688 stream processor contro i 2496 del modello K20. Le due soluzioni vanno a inserire in un "sandwich" la FirePro S9000, top di gamma di AMD a una singola GPU. Sul fronte del TDP abbiamo valori per le tre schede molto simili, mentre Nvidia sembra offrire maggiore potenza.
Tesla K20X | Tesla K20 | Tesla M2090 | Tesla M2070Q | |
---|---|---|---|---|
Stream Processor | 2688 | 2496 | 512 | 448 |
Frequenza GPU | 732MHz | 706MHz | 650MHz | 575MHz |
Frequenza shader | - | - | 1300MHz | 1150MHz |
Frequenza memoria | 5.2GHz GDDR5 | 5.2GHz GDDR5 | 3.7GHz GDDR5 | 3.13GHz GDDR5 |
Bus memoria | 384-bit | 320-bit | 384-bit | 384-bit |
Memoria | 6GB | 5GB | 6GB | 6GB |
Singola precisione | 3.95 TFLOPS | 3.52 TFLOPS | 1.33 TFLOPS | 1.03 TFLOPS |
Doppia precisione | 1.31 TFLOPS | 1.17 TFLOPS | 655 GFLOPS | 515 GFLOPS |
Transistor | 7.1B | 7.1B | 3B | 3B |
TDP | 235W | 225W | 250W | 225W |
Processo produttivo | TSMC 28nm | TSMC 28nm | TSMC 40nm | TSMC 40nm |
Architettura | Kepler | Kepler | Fermi | Fermi |
La Tesla K20X offre prestazioni di calcolo a singola precisione di 3,95 TFLOPs, che si riducono di un terzo in doppia precisione (1,31 TFLOPs). La FirePro S9000 si ferma a valori rispettivamente di 3,23 TFLOPs e 806 GFLOPs, più bassi anche di quelli della Tesla K20 (3,52 e 1,17 TFLOPS).
Ricordiamo invece che la Tesla K10, basata su chip GK104 come diverse top di gamma della linea GeForce, raggiunge i 4,58 TFLOPs con calcoli a singola precisione e 190 GFLOPs in doppia precisione, evidenziando come il GK104 non sia assolutamente pensato per il settore HPC. Interessante inoltre il salto dal top di gamma Fermi con chip GF110 (Tesla M2090) alla Tesla K20X, con un miglioramento in singola e doppia precisione rispettivamente di quasi quattro e tre volte. Il merito va proprio a GK110, un core che ancora non abbiamo visto in ambito gaming, e che forse non vedremo, anche se vi sono voci in merito.
Questa GPU però non è usata nella sua massima espressione nemmeno nel settore HPC. Complessivamente in questo chip vi sono 2880 core, suddivisi in 15 SMX (streaming multiprocessor) con 192 CUDA Core. Il modello K20X ha quattordici SMX attivi, mentre la K20 si ferma a tredici. Molti potrebbero pensare che Nvidia si stia riservando del margine per presentare in futuro una scheda ancora più potente, e sebbene sia possibile, la verità è un'altra: questo "mega chip" è difficile da produrre a 28 nanometri. L'azienda ha sicuramente tanti chip che funzionano solo in parte in magazzino per questo non è una nata solo una scheda, ma ben due, in modo da recuperare quante GPU possibili e ridurre le perdite.
| AMD FirePro S10000 | AMD FirePro S9000 | AMD FirePro V9800P | AMD FirePro S7000 | AMD FirePro V7800P |
---|---|---|---|---|---|
Stream Processor | 1792 x 2 (3584) | 1792 | 1600 | 1280 | 1440 |
Frequenza GPU | 825 MHz x 2 | 900MHz | 825MHz | 700MHz | 700MHz |
Bus memoria | 384-bit | 384-bit | 256-bit | 256-bit | 256-bit |
Memoria GDDR5 | 6GB | 6GB | 4GB | 4GB | 2GB |
Singola precisione | 5.91 TFLOPs | 3.23 TFLOPs | 2.64 TFLOPs | 2.4 TFLOPs | 2.0 TFLOPs |
Doppia precisione | 1.48 TFLOPs | 806 GFLOPs | 528 GFLOPs | 152 GFLOPs | 400 GFLOPs |
TDP | 375W | 225W | 225W | 150W | 138W |
Architettura | GCN | GCN | VLIW5 | GCN | VLIW5 |
La GPU è dotata anche di 64 unità FP64 all'interno di ogni SMX, e questo spiega come mai si riduca solo di un terzo la differenza prestazionale con calcoli in virgola mobile a singola e doppia precisione. Infine GK110 offre alcune tecnologie dedicate al calcolo parallelo quali, Hyper-Q che consente alla GPU di gestire fino a 32 operazioni simultaneamente e Dynamic Parallelism, che permette a un kernel di inviare un altro kernel "satellite".
In questo modo Nvidia gestisce tutto sul proprio chip, il coprocessore non deve comunicare con la CPU e perciò si riduce l'overhead. Inoltre si risparmiano del tempo e risorse sul processore, che può dedicarsi ad altre operazioni. Al momento conosciamo solo il prezzo della Tesla K20, pari a 3199 dollari tasse escluse con disponibilità fissata per dicembre.