Migliorare Cypress per costruire Cayman

AMD aveva quattro obiettivi principali nella progettazione di Cayman: più efficienza, prestazioni geometriche migliori, nuove funzionalitÃ per la qualitÃ d'immagine e migliore amministrazione energetica.

Anzitutto voleva creare un'architettura grafica più efficiente e potente. La motivazione dietro a questa decisione è abbastanza solida - AMD ha visto un tasso di VLIW di circa 3,4 nei giochi. Così rimuovendo funzioni speciali di unitÃ trascendentali e distribuendo le loro funzionalitÃ su altre quattro unitÃ si è ottenuta una buona prestazione per area che ha consentito alla GPU di lavorare alla frequenza operativa osservata. Ci sono situazioni dove le prestazioni potrebbero subire un calo (quando l'uso del VLIW va a picco sulle quattro unitÃ ) ma AMD dice che è improbabile.

Più importante, AMD aveva bisogno di creare un'architettura maggiormente efficiente. Con il processo produttivo a 40 nanometri l'azienda ha cercato di avere maggiori prestazioni per millimetro quadrato di die, anziché focalizzarsi semplicemente sull'aggiunta di prestazioni assolute. Passando da architettura five-way VLIW a un design four-way, AMD dichiara di aver raggiunto un miglioramento del 10% per millimetro quadrato di die, in quanto è possibile aggiungere più unitÃ SIMD nello stesso spazio.

Cypress/Barts usano un'architettura VLIW5 - clicca per ingrandire

Cayman usa una configurazione VLIW4 che consente maggiore efficienza - clicca per ingrandire

Razionalizzare l'architettura non la rende meno potente. I quattro stream processor hanno capacitÃ identiche, e assorbono anche il ruolo di unitÃ a funzione speciale. Nella configurazione VLIW4, ogni stream processor può fare:

Quattro FP FMA, MAD, MUL o ADD a 32-bit per clock
Due FP ADD a 64-bit per clock
Un FP FMA o MUL a 64-bit per clock
Un FP Special Funtion per clock
Quattro Int MAD, MUL o ADD a 24-bit per clock
Quattro Int ADD o bitwise opps a 32-bit per clock
Un Int MAD o MUL a 32-bit per clock
Un ADD a 64-bit per clock

I render back-end sono in grado di gestire integer ops a 16-bit due volte più rapidamente, mentre FP ops a 32-bit dalle due alle quattro volte più velocemente. Secondo AMD, ciò affligge per la maggior parte direttamente le prestazioni con l'anti-aliasing.