Nvidia GF104

Recensione - Test delle schede Nvidia GeForce GTX 460 da 1 GB e GeForce GTX 460 da 768 MB.

Avatar di Andrea Ferrario

a cura di Andrea Ferrario

Editor in Chief

Nvidia GF104

Come vedrete nei benchmark la GeForce GTX 460 è più veloce della GTX 465 in molti test. Come è possibile se questa GPU è stata volutamente progettata per la fascia media e dispone di un numero di shader inferiore? La risposta è da ricercare nel ricollocamento delle risorse.

A un primo sguardo d'insieme il GF104 si basa ancora sul concetto di Graphics Processing Clusters (GPC), ognuno formato da Streaming Multiprocessor (SM).

GF100 SM - clicca per ingrandire

GF104 SM - clicca per ingrandire

Le cose iniziano a cambiare all'interno degli SM. Anziché 32 CUDA Core per SM come il GF100, il GF104 ha 48 core per SM. Tenere occupati questi SM richiede un throughput per istruzione più elevato, quindi ecco un altro miglioramento: mentre il GF100 ha due unità dispatch per SM, GF104 ne ha quattro. Ogni SM ha inoltre otto unità texture (anziché quattro).

Mettendola in termini più semplici possibili, questa è una GPU più complessa del GF100. GF104 infatti si comporta meglio rispetto a una versione castrata del GF100.

GF104 completo - clicca per ingrandire

Chiariti i primi aspetti tecnici, facciamo qualche conto per determinare con cosa abbiamo a che fare. Un GF104 completo (senza risorse disabilitate) ha due GPC. Dati i quattro SM per GPC, abbiamo otto SM. Sapendo che ci sono 48 core per SM, GF104 può contare su un numero massimo di 384 CUDA Core, 64 unità texture e otto PolyMorph engine, che Nvidia usa per gestire le operazioni geometriche.

GF100 completo - clicca per ingrandire

Anche il back-end del chip è un po' differente. Un GF100 completo offre sei partizioni di unità ROP indipendenti dai GPC, ognuna capace di gestire otto interi a 32 bit per ogni pixel per clock (in totale 48). Tutte e sei le partizioni sono associate a un bus di memoria a 64 bit, il cui totale aggregato porta ad avere un bus di 384 bit. Il GF104 al massimo ha quattro partizioni, raggiunge fino a 32 pixel per clock e ha un bus di 256 bit.

Si tratta di specifiche molto interessanti per un chip ancora prodotto a 40 nanometri e con meno di 2 miliardi di transistor, anche se forse non è ai livelli del lavoro svolto da AMD per il Cypress da 2 miliardi - ma per andare a fondo della questione dovremo dare uno sguardo ai benchmark.