Migliorare Cypress per costruire Cayman

Recensione - Test delle schede grafiche Radeon HD 6950 e HD 6970 con GPU Cayman.

Avatar di Tom's Hardware

a cura di Tom's Hardware

Migliorare Cypress per costruire Cayman

AMD aveva quattro obiettivi principali nella progettazione di Cayman: più efficienza, prestazioni geometriche migliori, nuove funzionalità per la qualità d'immagine e migliore amministrazione energetica.

Anzitutto voleva creare un'architettura grafica più efficiente e potente. La motivazione dietro a questa decisione è abbastanza solida - AMD ha visto un tasso di VLIW di circa 3,4 nei giochi. Così rimuovendo funzioni speciali di unità trascendentali e distribuendo le loro funzionalità su altre quattro unità si è ottenuta una buona prestazione per area che ha consentito alla GPU di lavorare alla frequenza operativa osservata. Ci sono situazioni dove le prestazioni potrebbero subire un calo (quando l'uso del VLIW va a picco sulle quattro unità) ma AMD dice che è improbabile.

Più importante, AMD aveva bisogno di creare un'architettura maggiormente efficiente. Con il processo produttivo a 40 nanometri l'azienda ha cercato di avere maggiori prestazioni per millimetro quadrato di die, anziché focalizzarsi semplicemente sull'aggiunta di prestazioni assolute. Passando da architettura five-way VLIW a un design four-way, AMD dichiara di aver raggiunto un miglioramento del 10% per millimetro quadrato di die, in quanto è possibile aggiungere più unità SIMD nello stesso spazio.

Cypress/Barts usano un'architettura VLIW5 - clicca per ingrandire

Cayman usa una configurazione VLIW4 che consente maggiore efficienza - clicca per ingrandire

Razionalizzare l'architettura non la rende meno potente. I quattro stream processor hanno capacità identiche, e assorbono anche il ruolo di unità a funzione speciale. Nella configurazione VLIW4, ogni stream processor può fare:

  • Quattro FP FMA, MAD, MUL o ADD a 32-bit per clock
  • Due FP ADD a 64-bit per clock
  • Un FP FMA o MUL a 64-bit per clock
  • Un FP Special Funtion per clock
  • Quattro Int MAD, MUL o ADD a 24-bit per clock
  • Quattro Int ADD o bitwise opps a 32-bit per clock
  • Un Int MAD o MUL a 32-bit per clock
  • Un ADD a 64-bit per clock

I render back-end sono in grado di gestire integer ops a 16-bit due volte più rapidamente, mentre FP ops a 32-bit dalle due alle quattro volte più velocemente. Secondo AMD, ciò affligge per la maggior parte direttamente le prestazioni con l'anti-aliasing.