AMD spiega i vantaggi dei microprocessori server EPYC

Kevin Lepak, senior fellow di AMD, ha preso parte alla conferenza Hot Chips 2017 per spiegare le ragioni che hanno portato l'azienda a scegliere un progetto MCM (Multi-Chip Module) per i processori server EPYC, sottolinenando che si è trattata di una decisione presa sin dai primi momenti della progettazione.

Intel ha criticato duramente la scelta della rivale, dichiarando che AMD si è limitata a incollare insieme dei die di processori desktop per creare le soluzioni server. Inoltre, sempre secondo Intel, il progetto di AMD soffre di una latenza elevata e offre un bandwidth impattano sulle prestazioni con i carichi di lavoro più probanti.

AMD, ovviamente, è di parere diametralmente opposto. L'azienda ha spiegato di aver adattato il progetto per affrontare alcuni dei problemi associati alle architetture MCM, e ha affermato che il design garantisce una riduzione dei costi del 41% rispetto a un singolo processore monolitico.Come abbiamo spiegato nella recensione di Threadripper 1950X, il CEO di AMD Lisa Su ha incaricato il suo team di sviluppare un processore per server all'avanguardia, capace di rivaleggiare con le migliori proposte Intel.

Il team ha subito compreso che un singolo die monolitico non avrebbe potuto centrare gli obiettivi di prestazioni, memoria e I/O richiesti. Inoltre ci sono state alcune considerazioni - non meno importanti - sui costi. A Hot Chips 2017 Kevin Lepak ha confrontato i costi produttivi tra il progetto MCM e quello monolitico.

amd mcm vs monolithic — Clicca per ingrandire

Secondo AMD, optare per un approccio monolitico avrebbe permesso di creare un singolo die EPYC da 777 mm2, mentre quattro die MCM occupano un'area di 852 mm2, il 10% in più. L'azienda ha progettato dal primo momento il die Zeppelin per una disposizione MCM, quindi si è concentrata nel ridurre dell'ingombro dei componenti replicati. Ad esempio, ognuno dei quattro collegamenti Infinity Fabric richiede solo 2 mm2 di area sul die.

Ogni die Zeppeling contiene controller di memoria, I/O e un SCH (Server Control Hub, simile a un Northbridge), ma l'azienda ha rimosso quei componenti ridondanti nella proiezione dei costi del possibile die monolitico. AMD ha anche eliminato dal calcolo i collegamenti Infinity Fabric, non necessari nella configurazione a singolo die.

Razionalmente viene da pensare che l'area maggiore del die MCM porti a costi maggiori, ma secondo AMD è il contrario: li riduce del 41%. Tutti i die soffrono di difetti durante la produzione, ma i die più grandi sono più suscettibili a questa evenienza. I die più piccoli garantiscono rese migliori, e riducono il costoso impatto dei difetti. AMD può aggirare i difetti di core o cache disattivando le unità e usando il die "fallato" per modelli meno costosi, mentre i difetti che riguardano le linee I/O o altri percorsi critici sono, in genere, irreparabili.

amd advanced packaging — Clicca per ingrandire

Ogni die ha quattro collegamenti Infinity Fabric. AMD usa solo tre collegamenti per die per minimizzare la lunghezza della traccia, e così la latenza. Come potete vedere, i collegamenti attivati variano in base alla posizione del die nel progetto MCM. Le CPU Threadripper per workstation usano solo due collegamenti Infinity Fabric perché hanno solo due die.

EPYC: il ritorno di AMD nel settore dei server

Ogni die ha anche due controller I/O per massimizzare il bandwidth. Uno alimenta i blocchi "G" nella parte superiore del diagramma per la comunicazione tra i processori mentre l'altro alimenta i banchi "P" sul fondo, per le connessioni PCIe. AMD ritiene che l'approccio I/O distribuito assicuri uno scaling prestazionale coerente nei server a due socket. Threadripper, probabilmente, ha una disposizione un po' diversa perché non deve comunicare con un altro processore; forse ha un solo controller I/O attivo per die al fine di gestire le linee PCIe.

Throughput di memoria

Il throughput di memoria e la latenza possono soffrire nelle architetture MCM. Non a caso è uno degli argomenti che Intel ha usato per attaccare EPYC. AMD ha mostrato dei test sul bandwidth DRAM, evidenziando le prestazioni in varie configurazioni. Il bandwidth "NUMA Friendly" rappresenta gli accessi di memoria al controller locale del die, mentre "NUMA Unaware" misura il traffico di memoria che passa tramite Infinity Fabric da un controller di memoria connesso a un altro die.

Ovviamente AMD era conscia delle sfide legate al throughput di memoria optando per un design MCM, quindi ha riposto particolare attenzione al sottosistema di memoria. Il risultato è che il bandwidth varia di solo il 15% alla piena saturazione. La cosa interessante è che il throughput scala bene, con poca variazione tra i diversi tipi di accesso in presenza di carichi più leggeri.

amd infinity fabric die to die PNG — Clicca per ingrandire

La comunicazione peer-to-peer (P2P) tra GPU è importante per i carichi IA, uno dei segmenti in forte crescita nei datacenter, quindi le prestazioni sono critiche. EPYC ha un SCH, che è simile a un Northbridge integrato. Il meccanismo di switching di AMD dentro al processore può reindirizzare la comunicazione device-to-device senza farla passare dal sottosistema di memoria del processore, quindi funziona in modo molto simile a un normale switch. Questo permette alle piattaforme EPYC per offrire 128 linee PCIe 3.0 senza usare switch, cosa che riduce il costo e la complessità. Ovviamente tutto questo non significa molto se non permette di avere le medesime prestazioni.

amd performance io PNG — Clicca per ingrandire

Alla conferenza AMD ha presentato i dati prestazionali di un server a singolo socket, mostrando come EPYC offra solide prestazioni P2P quando i dati passano tramite Infinity Fabric. L'azienda ha inoltre presentato dati prestazionali per DMA. La colonna "Local DRAM" nella slide qui sopra quantifica le prestazioni quando una GPU fa un accesso DMA al controller di memoria connesso allo stesso die, mentre la colonna "die to die" misura le prestazioni con una richiesta DMA a un altro die - tramite Infinity Fabric.

amd infinity data fabric PNG — Clicca per ingrandire

Come potete vedere, le prestazioni sono simili e persino migliori in alcuni casi. AMD ha spiegato che Infinity Fabric - una versione del protocollo HyperTransport - detiene le tabelle directory in un buffer SRAM dedicato e supporta anche interrogazioni Multi-Cast.

AMD ha anche presentato dei benchmark relativi al memory throughput e allo scaling, dove ha un vantaggio impressionante sui processori Intel, anche se va detto che si tratta dei modelli basati su architettura Broadwell, quindi non gli ultimi. Come abbiamo visto nella nostra recensione, i chip Intel server di ultima generazione fanno un netto balzo in avanti per quanto riguarda il throughput di memoria. Kevin Lepak ha spiegato che AMD ha avuto difficoltà a ottenere gli ultimi chip Intel, ma sta lavorando per averli e aggiornare i propri dati.

Tom's Consiglia

32 core e 64 thread su un PC desktop li avremo solo tra moltissimi anni. Per ora ci facciamo andare più che bene gli 8 core di Ryzen 7 1700.