Architettura Bulldozer: FX-8150 sotto test

All'interno della line-up dei chip Zambezi tre modelli usando due moduli Bulldozer per un totale di quattro core, uno include tre moduli (sei core) e tre sono modelli completi con otto core. Per questo test usiamo il processore FX-8150 dal prezzo di 245 euro, su scheda madre socket AM3+.

Come giÃ sapete, AMD conta i core in modo differente da Intel (e rispetto alle architetture precedenti). Rispetto al multi processing a livello chip, dove ogni core è completo e distinto, AMD usa il chip-level multi-threading e distingue moduli e core.

L'enfasi in questo caso è sull'efficienza del progetto multi-core, dato che i tempi dei single core sono ormai finiti. Piuttosto che inserire più core possibili all'interno del silicio, in cerca di prestazioni pure, AMD ha provato a raggiungere un bilanciamento ottimale duplicando le risorse, aggiungendo più complessitÃ dove può essere usata meglio ed evitando sprechi nelle parti meno sensibili del chip.

Riprendiamo nuovamente un pezzo dal nostro articolo originario sull'FX-8150:

Un modulo Bulldozer non integra due core completi. Infatti alcune parti sono condivise, elementi che ci aspetteremmo di trovare come risorse dedicate in un classico core, inclusi l'istruction fetch e gli stadi di decodifica, le unitÃ a virgola mobile e la cache L2.

Secondo Mike Butler, capo architetto di Bulldozer, tutto ciò è giustificabile in quanto i core tradizionali che operano in un ambiente con limiti di consumo non fanno un uso ottimale del margine termico. Un'affermazione molto sensata: se state creando una CPU server e volete metterci più core possibili, vorrete un'architettura che favorisce le risorse più usate, piuttosto che sprecare spazio sul die e margine termico per componenti che invece si possono condividere tra i vari core, senza per questo perdere prestazioni.

La decisione di condividere elementi diventa un problema quando entrambi i thread hanno bisogno delle stesse risorse, e a quel punto le prestazioni calano rispetto al multiprocessing a livello chip. AMD è però ottimista: lo scorso agosto quando ha iniziato a parlare dell'architettura Bulldozer, ha stimato che un modulo potrebbe avere una potenza pari all'80% di due core completi, mentre lo spazio occupato sul die è minimo. Il risultato, in ambienti ottimizzati per sfruttare i thread, è che un processore basato su Bulldozer dovrebbe offrire miglioramenti significativi sul piano dell'efficienza.

Questo significa inoltre che AMD ha dovuto ridefinire l'idea di core, sostanzialmente affermando che ogni "cosa" che abbia una propria coda di esecuzione integer è un core - se non altro questo tipo di calcoli rappresentano la maggior parte dei carichi sulla CPU. Non abbiamo alcun problema con questa definizione, ma se condividere le risorse riduce le prestazioni per ciclo, AMD deve necessariamente puntare su frequenze più alte o una maggiore enfasi sul threading per compensare. Un fatto da tenere bene a mente.

La strada della condivisione

Gli architetti di AMD hanno certamente deciso con molta attenzione quali parti del core potevano essere condivise, tenendo consumi ed efficienza in mente. Per esempio, in caso di branch misprediction, il front-end di un core tradizionale dev'essere ripulito, sprecando sia bandwidth che energia. Condividere quell'hardware tra i due core aiuta a migliorare l'uso di quelle risorse. AMD inoltre ha cercato aree che poteva permettersi di condividere senza rallentare le operazioni critiche, e per questo ha condiviso lo scheduler in virgola mobile, considerato non così sensibile dal punto di vista delle latenze come le unitÃ integer.

Al sistema operativo il risultato appare come un paio di core, come accade con i processori Intel dotati di Hyper-Threading. AMD naturalmente desidera chiarire che Bulldozer si comporta in modo simile all'Hyper-Threading (o SMT), affermando che il proprio design facilita una migliore scalabilitÃ rispetto a due thread che condividono un singolo core. Anche questa è un'affermazione sensata: un modulo Bulldozer non si può definire come un singolo core perché molte delle sue risorse sono duplicate.

Modello	Clock Base	Clock Turbo-Core	Max. Clock Turbo	TDP	Core	Cache L2 Totale	Cache L3	North Bridge Freq.
FX-8150	3.6 GHz	3.9 GHz	4.2 GHz	125 W	8	8 MB	8 MB	2.2 GHz
FX-8120	3.1 GHz	3.4 GHz	4.0 GHz	125 / 95 W	8	8 MB	8 MB	2.2 GHz
FX-8100	2.8 GHz	3.1 GHz	3.7 GHz	95 W	8	8 MB	8 MB	2.0 GHz
FX-6100	3.3 GHz	3.6 GHz	3.9 GHz	95 W	6	6 MB	8 MB	2.0 GHz
FX-4170	4.2 GHz	-	4.3 GHz	125 W	4	4 MB	8 MB	2.2 GHz
FX-B4150	3.8 GHz	3.9 GHz	4.0 GHz	95 W	4	4 MB	8 MB	2.2 GHz
FX-4100	3.6 GHz	3.7 GHz	3.8 GHz	95 W	4	4 MB	8 MB	2.0 GHz