Nvidia Tesla K20 e K20X sprigionano la potenza di GK110

Tesla K20 e K20X sono le due nuove proposte di Nvidia per il settore dei supercomputer. GK110 è al centro di tutti e due i coprocessori: si tratta di un chip da oltre 7 miliardi di transistor che assicura ottime prestazioni anche con calcoli in virgola mobile a doppia precisione.

Avatar di Manolo De Agostini

a cura di Manolo De Agostini

Nvidia ha presentato Tesla K20 e K20X, due nuovi coprocessori indirizzati al mercato dei High Performance Computing (HPC) che rispondo immediatamente alla gamma FirePro di AMD, ampliata con il modello dual GPU FirePro S1000. L'azienda ufficializza in questo modo i primi prodotti basati su GPU GK110, un superchip da 7,1 miliardi di transistor di cui Nvidia aveva già anticipato parte delle caratteristiche. Tra l'altro le soluzioni della famiglia Tesla K20 sono uno dei fiori all'occhiello del nuovissimo supercomputer Titan da 20 petaflops, installato presso l'Oak Ridge National Leadership Computing Facility (OLCF, Tennessee).

La tabella vi mostra come la differenza tra Tesla K20 e K20X sia prettamente di carattere tecnico, con il modello "X" più veloce grazie a 2688 stream processor contro i 2496 del modello K20. Le due soluzioni vanno a inserire in un "sandwich" la FirePro S9000, top di gamma di AMD a una singola GPU. Sul fronte del TDP abbiamo valori per le tre schede molto simili, mentre Nvidia sembra offrire maggiore potenza.

  Tesla K20X Tesla K20 Tesla M2090 Tesla M2070Q
Stream Processor 2688 2496 512 448
Frequenza GPU 732MHz 706MHz 650MHz 575MHz
Frequenza shader - - 1300MHz 1150MHz
Frequenza memoria 5.2GHz GDDR5 5.2GHz GDDR5 3.7GHz GDDR5 3.13GHz GDDR5
Bus memoria 384-bit 320-bit 384-bit 384-bit
Memoria 6GB 5GB 6GB 6GB
Singola precisione 3.95 TFLOPS 3.52 TFLOPS 1.33 TFLOPS 1.03 TFLOPS
Doppia precisione 1.31 TFLOPS 1.17 TFLOPS 655 GFLOPS 515 GFLOPS
Transistor 7.1B 7.1B 3B 3B
TDP 235W 225W 250W 225W
Processo produttivo TSMC 28nm TSMC 28nm TSMC 40nm TSMC 40nm
Architettura Kepler Kepler Fermi Fermi

La Tesla K20X offre prestazioni di calcolo a singola precisione di 3,95 TFLOPs, che si riducono di un terzo in doppia precisione (1,31 TFLOPs). La FirePro S9000 si ferma a valori rispettivamente di 3,23 TFLOPs e 806 GFLOPs, più bassi anche di quelli della Tesla K20 (3,52 e 1,17 TFLOPS).

Ricordiamo invece che la Tesla K10, basata su chip GK104 come diverse top di gamma della linea GeForce, raggiunge i 4,58 TFLOPs con calcoli a singola precisione e 190 GFLOPs in doppia precisione, evidenziando come il GK104 non sia assolutamente pensato per il settore HPC. Interessante inoltre il salto dal top di gamma Fermi con chip GF110 (Tesla M2090) alla Tesla K20X, con un miglioramento in singola e doppia precisione rispettivamente di quasi quattro e tre volte. Il merito va proprio a GK110, un core che ancora non abbiamo visto in ambito gaming, e che forse non vedremo, anche se vi sono voci in merito.

Questa GPU però non è usata nella sua massima espressione nemmeno nel settore HPC. Complessivamente in questo chip vi sono 2880 core, suddivisi in 15 SMX (streaming multiprocessor) con 192 CUDA Core. Il modello K20X ha quattordici SMX attivi, mentre la K20 si ferma a tredici. Molti potrebbero pensare che Nvidia si stia riservando del margine per presentare in futuro una scheda ancora più potente, e sebbene sia possibile, la verità è un'altra: questo "mega chip" è difficile da produrre a 28 nanometri. L'azienda ha sicuramente tanti chip che funzionano solo in parte in magazzino per questo non è una nata solo una scheda, ma ben due, in modo da recuperare quante GPU possibili e ridurre le perdite.

 

AMD FirePro S10000 AMD FirePro S9000 AMD FirePro V9800P AMD FirePro S7000 AMD FirePro V7800P
Stream Processor 1792 x 2 (3584) 1792 1600 1280 1440
Frequenza GPU 825 MHz x 2 900MHz 825MHz 700MHz 700MHz
Bus memoria 384-bit 384-bit 256-bit 256-bit 256-bit
Memoria GDDR5 6GB 6GB 4GB 4GB 2GB
Singola precisione 5.91 TFLOPs 3.23 TFLOPs 2.64 TFLOPs 2.4 TFLOPs 2.0 TFLOPs
Doppia precisione 1.48 TFLOPs 806 GFLOPs 528 GFLOPs 152 GFLOPs 400 GFLOPs
TDP 375W 225W 225W 150W 138W
Architettura GCN GCN VLIW5 GCN VLIW5

La GPU è dotata anche di 64 unità FP64 all'interno di ogni SMX, e questo spiega come mai si riduca solo di un terzo la differenza prestazionale con calcoli in virgola mobile a singola e doppia precisione. Infine GK110 offre alcune tecnologie dedicate  al calcolo parallelo quali, Hyper-Q che consente alla GPU di gestire fino a 32 operazioni simultaneamente e Dynamic Parallelism, che permette a un kernel di inviare un altro kernel "satellite".

In questo modo Nvidia gestisce tutto sul proprio chip, il coprocessore non deve comunicare con la CPU e perciò si riduce l'overhead. Inoltre si risparmiano del tempo e risorse sul processore, che può dedicarsi ad altre operazioni. Al momento conosciamo solo il prezzo della Tesla K20, pari a 3199 dollari tasse escluse con disponibilità fissata per dicembre.