Hot topics:
News su SMAU 2017
46 minuti

Test AMD Ryzen Threadripper 1950X

Recensione del processore Ryzen Threadripper 1950X con 16 core e 32 thread, soluzione HEDT che sfida l'offerta Core i9 di casa Intel.

Test AMD Ryzen Threadripper 1950X

Ryzen Threadripper, la genesi

Diamo il benvenuto all'arrivo della CPU Ryzen Threadripper con 16 core e 32 thread. AMD, dopo aver presentato la gamma Ryzen, ha deciso di attaccare Intel nel settore High-End DeskTop (HEDT) offrendo fino al 60% in più di core, il 36% in più di linee PCI Express e il 68% in più di cache rispetto alle controparti Skylake-X di pari prezzo (che vede nel Core i9-7900X con 10 core e 20 thread il miglior esponente).

Intel, come noto, risponderà a breve con soluzioni fino a 18 core. Alla base di Threadripper c'è la stessa architettura modulare che caratterizza l'offerta Ryzen, sebbene il suo DNA sia riconducibile all'offerta datacenter EPYC.

ryzen threadripper 1950x

Quattro anni fa la dottoressa Lisa Su, ora amministratore delegato di AMD (CEO, Chief Executive Officer), chiese al proprio team di progettare un processore server in grado di competere con la migliore offerta di Intel. Si trattava di un obiettivo ambizioso considerando quanto AMD fosse distante  dalla concorrente in quel preciso momento. Lo sviluppo del core Zen, un progetto realizzato da zero capace di aumentare l'IPC del 52% rispetto alle ultime CPU FX, era già in corso e destinato a dare forma ai nuovi chip.

La progettazione di un processore è però sempre il frutto di una serie di compromessi. L'azienda capì rapidamente che non poteva creare un die monolitico capace di centrare tutti gli obiettivi di prestazioni, memoria e I/O che si era posta. Gli ingegneri di AMD misero perciò insieme due blocchi modulari quad-core (CCX) in un die a otto core, e così nacque Zeppelin.

AMD usa lo stesso blocco alla base di Zeppelin per tutti i suoi processori. Un approccio che le permette di massimizzare risorse limitate; AMD può semplicemente aggiungere più die per package per creare chip altamente paralleli, come Threadripper ed EPYC. 

Anche se AMD ha affrontato diversi problemi al lancio di Ryzen, ora la piattaforma è molto più matura e gli sviluppatori stanno sfruttando meglio il potenziale dell'architettura. Gli sforzi di AMD, inoltre, stanno pagando: le CPU Ryzen sono competitive. Threadripper porta con sé un nuovo insieme di sfide, ma AMD ha pensato ad alcune soluzioni per non perdere utili prestazioni.

Threadripper 1950X, 1920X e 1900X

È importante capire anzitutto a chi si rivolge Threadripper. AMD ha creato questo progetto per gli sviluppatori di software, chi crea contenuti, chi lavora con audio/video e pesantemente in multi-tasking. Anche se Threadripper non si rivolge direttamente ai gamer, in particolare a chi gioca a basse risoluzioni con titoli che sfruttano poco i thread, l'azienda ha pensato anche a questo impiego. L'alto numero di core dovrebbe essere utile in scenari in cui chi gioca vuole anche fare streaming o altre attività in contemporanea.

Threadripper 1950X
Socket TR4
Core / Thread 16/32
Freq. Base 3,4 GHz
Freq. Boost 3,7 GHz (tutti i core a 3,6 GHz, quattro core a 4 GHz, 4,2 GHz quattro core con XFR)
Memoria supportata DDR4 da 1866 a 2677
Controller di memoria Quad-Channel
Moltiplicatore sbloccato

Linee PCIe

64 (4 verso il chipset)

Grafica integrata

No
Cache (L2+L3) 8MB + 32MB
Architettura Zen
Processo 14nm GlobalFoundries
TDP 180W

Ryzen Threadripper 1950X, con un prezzo di 1000 dollari, è il leader dell'offerta high-end desktop con 16 core e 32 thread, mentre i modelli 1920X (12C/24T) e 1900X (8C/16T) completano la gamma. Come la famiglia Ryzen, Threadripper offre più core delle analoghe soluzioni Intel a ogni livello di prezzo. Stavolta abbiamo anche 64 linee PCIe 3.0 (quattro delle quali dedicate al chipset) che superano le 44 linee del Core i9-7980XE - un chip non ancora disponibile.

AMD offre tutte e 64 le linee con le CPU Threadripper, mentre Intel ha ridotto la connettività nei processori Skylale-X sotto i 1000 euro. Anche se due schede video stanno diventando sempre più una rarità nei sistemi da gioco di fascia alta, ci sono un sacco di carichi ancora frenati dall'I/O. Ad esempio, molti carichi pesanti che riguardano la creazione di contenuti richiedono un sacco di archiviazione, e gli streamer spesso usano schede di cattura dedicate.

  TR 1950X Core i9-7900X TR 1920X Core i7-7820X TR 1900X
Prezzo $999 $999 $799 $599 $549
Socket/PCH TR4 / X399 LGA2066 / X299 TR4 / X399 LGA2066 / X299 TR4 / X399
Core/Thread 16/32 10/20 12/24 8/16 8/16
TDP 180W 140W 180W 140W 180W
Freq. base (GHz) 3.4 3.3 3.5 3.6 3.8
Freq. Boost (GHz) 4.0 (4.2 XFR) 4.3 / 4.5 (TB 3.0) 4.0 (4.2 XFR) 4.3 / 4.5 (TB 3.0) 4.0 (4.2 XFR)
Cache (L2+L3) 40 MB 23,75 MB 38 MB 19MB 20 MB
Supporto memoria DDR4-2667 DDR4-2666 DDR4-2667 DDR4-2666 DDR4-2667
Controller memoria Quad-Channel Quad-Channel Quad-Channel Quad-Channel Quad-Channel
Moltiplicatore sbloccato
Linee PCIe 64 44 64 28 64

Threadripper 1950X offre una frequenza base di 3,4 GHz che sale a 3,6 GHz per i carichi più paralleli. I Ryzen mainstream adottano la tecnologia Precision Boost su due core per velocizzare i carichi meno paralleli, ma qui a causa del design dual-die di Threadripper - di cui ci occuperemo nella prossima pagina - abbiamo una frequenza di 4,2 GHz su quattro core. In modo simile alla gamma Intel Skylake-X, AMD offre il moltiplicatore sbloccato su tutti i chip Threadripper, ma favorisce l'aumento della frequenza e lo scaling di tensione tramite la selezione del miglior 5% tra i die Zeppelin prodotti. Questo dovrebbe portare a una minore richiesta di tensione rispetto ai modelli Ryzen 7.

Ogni die Zeppelin ha anche 16MB di cache L3, quindi Threadripper 1950X ha un totale di 32MB, molto di più dei 24,75MB che Intel offrirà con il 18C/36T Core i9-7980XE. Se guardiamo al prezzo, il 1950X offre 18,25MB di cache L3 in più del Core i9-7900X. Certo la latenza e il bandwidth possono essere molto più importanti della capacità, perciò dovremo verificare il bilanciamento ottenuto dalle due aziende tra capacità e velocità.

L'architettura dual-die di AMD è accompagnata da un TDP di 180W, che è superiore al tetto di 165W di Skylake-X. Certamente il TDP non rispecchia direttamente il consumo durante tutti i carichi. AMD ha un insieme di soluzioni di risparmio energetico nella suite SenseMI che dovrebbero aiutare in tal senso.

Di certo un grande processore con un TDP di 180W necessita di una dissipazione termica adeguata, ma non ci sono ancora dissipatori a liquido progettati specificatamente per il grande heatspreader di Threadripper. Perciò AMD include una staffa Asetek che fornisce compatibilità con un'ampia gamma di soluzioni a liquido AIO. Si tratta di un buon compromesso fino a quando non arriveranno soluzioni ad hoc per il socket TR4, anche se non è ottimale. Ci sono diverse soluzioni ad aria disponibili, inclusi alcuni modelli Noctua con la base abbastanza grande da coprire tutto l'heatspreder.

Threadripper ha due controller di memoria dual-channel indipendenti, uno per die, che combina al fine di offrire supporto quad-channel con transfer rate variabili - illustrasti in tabella - in base alle configurazioni di memoria. La piattaforma supporta memoria ECC e un tetto di 256 GB di RAM, anche se può supportare fino a 2 TB di capacità con l'aumentare della densità di memoria.

Supporto memoria Ryzen Threadripper MT/s
Quad-Channel/Dual-Rank/due DIMM per canale (8) 1866
Quad-Channel/Single-Rank/Due DIMM per canale (8) 2133
Quad-Channel/Dual-Rank/Una DIMM per canale (4) 2400
Quad-Channel/Single-Rank/Una DIMM per canale (4) 2677

AMD connette i due die Zeppelin tramite Infinity Fabric, quindi i dati residenti in banchi di memoria "lontani" soffrono di una latenza più alta. L'azienda include due nuove impostazioni che aiutano a compensare gli svantaggi legati all'architettura di memoria distribuita, di cui ci occuperemo nella pagina successiva. La Creator Mode offre le piene capacità di calcolo e le risorse di memoria per carichi di produttività, mentre la Game Mode prova a mantenere i dati residenti in memorie "vicine" e limita i calcoli a un singolo die. L'idea di modalità dedicate è certamente nuova nel mondo desktop e richiede un riavvio dopo ogni cambiamento, ma secondo i nostri test offre benefici prestazionali tangibili con i giochi.

ryzen threadripper

Il chipset X399 affianca il socket TR4, confermando le radici datacenter della piattaforma. Questo significa che le motherboard X399 costeranno di più delle soluzioni AM4, e potrebbero persino avere prezzi vicini a quelli delle Intel X299. Naturalmente AMD può contare su molti partner del settore motherboard per il debutto di Threadripper, e questo dovrebbe permettere di rifuggere ai problemi di disponibilità visti al debutto di Ryzen.

Game Mode, architettura e test latenza Infinity Fabric

Ci siamo occupati dell'architettura Zen in dettaglio e anche di Infinity Fabric. Date un'occhiata a quegli articoli per avere maggiori informazioni.

Zeppelin ovunque

L'enorme package di Threadripper nasconde tanta complessità, ma faremo del nostro meglio per semplificare e spiegare come si relaziona con le nuove Creator e Game Mode messe in campo da AMD.

L'architettura Zen usa un CCX quad-core (CPU Complex). AMD dota ogni CCX di 8 MB di cache L3 suddivisa in quattro slice; ogni core nel CCX accede a tutti gli slice L3 con la stessa latenza media. Due CCX permettono di creare un die a 8 core Ryzen 7 (il grande blocco arancione nella seconda immagine sotto), e i due comunicano tramite Infinity Fabric. I CCX condividono lo stesso controller di memoria dual-channel. Di fondo abbiamo due CPU quad-core che parlano tra loro tramite l'interconnessione Infinity Fabric che gestisce anche il traffico northbridge e PCIe.

01 PNG
Clicca per ingrandire
Ryzen Die Shot 1
Clicca per ingrandire

Tutti i Ryzen 7, 5 e 3 integrano lo stesso singolo die Zeppelin. Anche se ogni core in un CCX quad-core può accedere alla cache locale con la stessa latenza media, il "viaggio" per recuperare il dato in CCX adiacenti è penalizzante sul fronte della latenza. A soffrire è anche la comunicazione tra i thread sui core in CCX separati, cosa molto importante per il gaming. Diversi motori di gioco suddividono i vari compiti in thread differenti, ma dipendono dalla costante sincronizzazione tra loro. Gli sviluppatori possono compensare parte della latenza di comunicazione ottimizzando per l'architettura Ryzen.

Costruire Threadripper

Il grafico sotto rappresenta il die di un processore server AMD EPYC, che condivide lo stesso progetto di base di Threadripper. Possiamo vedere quattro die Zeppelin separati connessi tramite Infinity Fabric, e quattro CCX all'interno di ogni die. Questo crea un Multi-Chip Module (MCM) a 32 core. Threadripper è "solo" un processore a 16 core. Per creare questa configurazione AMD adotta due die "falsi", i quali sono riempitivi non funzionanti che assicurano l'integrità strutturale dell'heatspreader e un accoppiamento coerente con i pin del socket. Senza questi die spenti, l'IHS potrebbe piegarsi quando fissateil dissipatore, o il chip potrebbe flettersi e non fare pieno contatto con i pin. AMD dice che i die funzionanti di Threadripper sono sempre posti diagonalmente l'uno con l'altro, il che ha senso considerando il progetto dell'interconnessione.

Threadripper 01
Threadripper 02

Ricordate, ogni die Zeppelin ha i propri controller di memoria e PCIe. Questo significa che se un carico che si svolge su un die ha bisogno di accedere a un dato che risiede nella memoria dell'altro die (la memoria "lontana" di cui parlavamo prima), deve attraversare una maggior distanza. Questo introduce un livello di latenza che non avevamo visto nei precedenti modelli Ryzen, e il suo effetto sulle prestazioni gaming è marcato. L'impatto non è così severo con la maggior parte dei carichi professionali, ma alcuni ne risentono.

Gli interruttori "magici"

Per alleviare l'impatto dell'accesso alla memoria "lontana" AMD ha introdotto una nuova modalità di accesso alla memoria che può essere attivata nel BIOS o tramite il software Ryzen Master. Le impostazioni Local e Distribuited permettono di passare a NUMA (Non-Uniform Memory Access) o UMA (Universal Memory Access).

UMA (distributed) è piuttosto semplice; permette ai die di accedere a tutta la memoria collegata. La modalità NUMA (local) cerca di mantenere tutti i dati per l'esecuzione del processo sul die confinato al suo controller di memoria direttamente connesso. Questo riduce e possibilmente elimina, il recupero di dati dalla memoria "lontana" connessa a un altro die. NUMA affonda le sue radici nel mondo enterprise, ma la tecnica funziona meglio se i programmi sono progettati per usarla. È una rarità in ambito desktop, e anche se quasi nessun software desktop la supporta, possono esserci vantaggi prestazionali per i software non NUMA.

Threadripper 03

Threadripper introduce più core sui PC desktop rispetto a quanto visto in passato; alcuni programmi di conseguenza sono presi in contropiede. Giochi come Far Cry Primal e la serie DiRT non funzionano nemmeno usando Threadripper al massimo delle sue potenzialità. Questo è un problema, quindi AMD ha creato una "modalità compatibile" che disattiva metà core del processore tramite l'esecuzione di un comando "bcdedit /set numproc XX" in Windows che in effetti disattiva metà del processore. Fortunatamente a causa dell'assegnazione dei core da parte del sistema operativo, il comando disattiva tutti i core/thread sul secondo die. Questo ha il beneficio collaterale di eliminare la comunicazione thread-to-thread su die separati, e si rivela una grande soluzione alla costante sincronizzazione tra thread durante la maggior parte dei carichi gaming.

Dato che questo cambiamento è fatto in software, il die "disattivato" è ancora alimentato, quindi il sistema può ancora accedere ai controller di memoria e PCIe del die inattivo.

Game Mode e Creator Mode

Quindi che fare con queste modalità? Ci sono quattro combinazioni separate che impattano su ogni software o gioco in modo diverso, quindi dovete provarle tutte per trovare la combinazione migliore possibile per il vostro carico. Questa è una fortuna per chi ama spremere ogni goccia prestazionale dal sistema, ma è un incubo per tutti gli altri.

threadripper profiles
Clicca per ingrandire

AMD ha deciso di semplificare il processo indicando due combinazioni che funzioneranno al meglio per giochi e software standard. Creator mode, che è la configurazione stock, "abilita" tutti e 32 i thread. Dovrebbe offrire prestazioni eccellenti con la maggior parte dei software di produttività.

Game mode taglia metà dei core tramite la modalità di compatibilità e riduce la memoria e la latenza die-to-die con la modalità di memoria Local. Testeremo entrambe le configurazioni con i giochi, e inoltre proveremo un'altra configurazione che offre tutti i thread.

Test latenza Infinity Fabric

La comunicazione tra i die aggiunge un altro strato di latenza alla complicata architettura di Ryzen. Presentano anche delle sfide in alcuni applicazioni, come quelle con thread sincronizzati o che devono recuperare dati frequentemente da memoria lontana, ma hanno meno impatto in altre.

  Latenza intra-Core Latenza intra-CCX Core-to-Core Latenza Cross-CCX Core-to-Core Latenza media Cross-CCX Latenza Die-to-Die Latenza media Die-To-Die Transfer Bandwidth medio
TR 1950X Creator Mode DDR-2666 13.7 - 14.1 39.4 - 43.2ns 157.6 - 171.3 168ns 180.6 - 256.7ns 238.47ns 90.26 GB/s
TR 1950X Creator Mode DDR4-3200 13.8 - 14.9 39.2 - 45.4ns 144.9 - 167.2ns 160.1ns 213.1 - 227.8ns 216.9ns 91.67 GB/s
TR 1950X Game Mode DDR4-2666 13.9 - 14.2ns 39.5 - 42.3ns 149.2 - 164.1ns 159.66ns X X 46.58 GB/s
TR 1950X Game Mode DDR4-3200 14.3 - 14.9ns 41.2 - 46.2ns 123 - 150.6ns 145.44ns X X 45.52 GB/s
TR 1950X Local/SMT DDR4-2666 13.9 - 14.4ns 39.6 - 43.1ns 168.7 - 175.4ns 171.48ns 232.4 - 240.8 235.38ns 92.7 GB/s
TR 1950X Local/SMT DDR4-3200 13.9 - 14.4ns 39.9 - 44.5ns 146.7 - 159.4ns 153.89ns 209.3 - 220.9ns 212.53ns 91 GB/s
Ryzen 7 1800X 14.8ns 40.5 - 82.8ns 120.9 - 126.2ns 122.96ns X X 48.1 GB/s
Ryzen 5 1600X 14.7 - 14.8ns 40.6 - 82.8ns 121.5 - 128.2ns 123.48ns X X 43.88 GB/s

La misura della latenza intra-core rappresenta la comunicazione tra due thread logici residenti sullo stesso core fisico e non sono influenzati dalla velocità della memoria. Le misure intra-CCX quantificano la latenza tra thread che sono sullo stesso CCX ma non risiedono sullo stesso core. In passato abbiamo osservato variazioni prestazionali leggere, ma la latenza intra-CCX è anch'essa ampiamente non influenzata dalla velocità della memoria. Tuttavia, abbiamo visto un grande calo nella latenza cross-CCX, la quale denota la latenza tra thread posti su due CCX separati, tramite l'aumento del data trasfer rate di memoria da DDR4-1333 a DDR4-3200 sui modelli Ryzen 5 e Ryzen 7.

Lo stesso trend generale continua con Threadripper. Come potete vedere la Game Mode rimuove la latenza die-to-die per i thread disabilitando effettivamente un die, ma riduce anche le risorse di calcolo. È una caratteristica interessante che darà benefici con alcuni carichi, ma creerà problemi in altri.

Notiamo anche che la combinazione Local/SMT, che consiste nell'impostazione local e lascia tutti i core attivi (legacy off), offre il miglioramento migliore di latenza generale tramite l'overclock della memoria. Abbiamo anche registrato una latenza cross-CCX più alta con i processori Threadripper.

Processore Latenza intra-Core Latenza Core-To-Core Latenza media Core-To-Core Transfer Bandwidth medio
Core i9-7900X 14.5 - 16ns 69.3 - 82.3ns 75.56ns 83.21 GB/s
Core i9-7900X @ 3200 MT/s 16 - 16.1ns 76.8 - 91.3ns 83.93ns 87.31 GB/s
Core i7-6950X 13.5 - 15.4ns 54.5 - 70.3ns 64.64ns 65.67 GB/s
Core i7-7700K 14.7 - 14.9ns 36.8 - 45.1ns 42.63ns 35.84 GB/s

Siamo nel mezzo di una serie di test più ampia per quantificare come queste modalità impattano sul bandwidth e la latenza di memoria, tra le tante cose. Restate sintonizzati.

Continua a pagina 2
AREE TEMATICHE
Vuoi ricevere aggiornamenti su #CPU?
Iscriviti alla newsletter!