UFFICIALE Aspettando Nvidia Volta

U

Utente cancellato 159815

Ospite
[ASPETTANDO NVIDIA VOLTA]

image-immagine2-0D66_57CB437A.jpg


SPECIFICHE FINORA NOTE:

Processo produttivo: 16 nm finFET
Ram: HBM 2
Modelli GPU: GV104, GV102, GV110


Nvidia-Volta-GPU-Launch-May-2017.png


Così avevamo salutato il 3d aspettando Maxwell, per passare in quello relativo alle GPU effettivamente annunciate, oggi partiamo con un altro step evolutivo delle architetture Nvidia, e quel Maggio 8-11 2017 pare sia diventata una data significativa anche per l'annuncio delle architetture consumer gaming potenziate con i vari GV104, GV110 e GV102 di cui però ancora non si conoscono le prerogative.

Quello che sappiamo, per ora, è che si sta pensando, a differenza di Pascal che conserva SM del tutto simili a Maxwell, a un significativo step architetturale, dopo quello inerente il PP simile a quello che ha consentito a Maxwell di ottenere il 40% di performance in più dai Cuda Cores e il 50% di consumi in meno.
Si era parlato anche di PP a 10 nm, ma è stato subito smentito ed è quasi confermato che sarà sviluppato con il medesimo PP di Pascal, i 10nm saranno saltati in favore dei 7 nm per le future architetture dalle ultime voci di corridoio.
Come memoria si parla, per ora, unicamente di Ram HBM2 e ritorna alla grande la voce di Nvlink, ma questa volta anche per il mercato High Performance Gaming.
Ricordo che nella prima Road Map delle nuove architetture Pascal non veniva nemmeno citato:

NVIDIA-GPU-Roadmap.png


Che Nvidia sia passata a un modello di upgrade dell'architettura simil Tick Tock Intel mi pare alquanto probabile, anche perchè già si parla di VOLTA revisionato su processo produttivo nuovo con un trattamento simil Maxwell-Pascal.

VOLTA V100 (il chippone)

SXM2-VoltaChipDetails.png


image-voltav100-4293_591417C1.jpg


ARCHITETTURA:

NVIDIA-Volta-GV100.png


DETTAGLIO SM

image3.png


IL SUPERAMENTO DEL WARP SCHEDULER

warp_pascal_volta.png

Volta’s independent thread scheduling allows the GPU to yield execution of any thread, either to make better use of execution resources or to allow one thread to wait for data to be produced by another. To maximize parallel efficiency, Volta includes a schedule optimizer which determines how to group active threads from the same warp together into SIMT units. This retains the high throughput of SIMT execution as in prior NVIDIA GPUs, but with much more flexibility: threads can now diverge and reconverge at sub-warp granularity, and Volta will still group together threads which are executing the same code and run them in parallel.

In pratica una maggiore parallelizzazione dei Threads in fasi di elaborazione, una maggiore flessibilità, e sarà interessante capire ora le performance in ambito Async compute.
 
Ultima modifica da un moderatore:

techfede

Utente Attivo
1,081
229
CPU
i5 750
Scheda Madre
ASUS P7P55D Pro
HDD
SanDisk Plus 120Gb SSD + Seagate Barracuda 1Tb
RAM
4x2Gb Samsung 1333MHz Cl 9
GPU
XFX HD 7950
PSU
Jou Jye 520w
Case
NZXT Source 210 Elite
OS
Windows 10
Ecco, questa mi interessa molto più di Pascal :sisi:
 

Booker DeWitt

Utente Èlite
3,975
813
CPU
i7 4770k @ 4.1GHz
Dissipatore
Cooler Master Seidon 120XL
Scheda Madre
Gigabyte GA-Z87X-UD4H
HDD
Seagate Barracuda 3TB 7200rpm + SSD Samsung 850 EVO 250GB
RAM
Corsair Vengeance Pro Black 16GB 1867MHz
GPU
RTX 2080 GameRock Premium
Audio
Integrata
Monitor
Samsung 43" 4K HDR10+
PSU
XFX Core Edition 650W
Case
Cooler Master HAF 932 Advanced ATX Nero
Periferiche
Tastiera Corsair STRAFE RGB + Mouse Corsair SABRE Laser RGB + Cuffie wireless Corsair Void RGB 7.1
OS
Windows 10 Pro
Alla fine Pascal non ha portato poi a molto, è più un ponte verso le Volta che dovrebbero spaccare un po' di culi.
 

Mikael84

Utente Attivo
624
164
Io vedo possibili alcuni schemi legati a 6/7 TPC per GPC. Da quello che so Nvidia non riesce ancora ad aumentare i raster e sicuramente sarà bloccata a 16 pixel anche con Volta.

Teoricamente a livello di numeri si potrebbe realizzare anche un chip sopra i 5000 cuda.
8 GPC Pascal necessiterebbero di un core da circa 628mm2. Però 8 GPC significano un core da 5120cc /128 rop's e 4mb di cache l2/ 512bit.

Basta includere tutto nei 6 GPC e fare GPC da 896cc, limitare tutto a 16 rop's per GPC (96 finali), 3mb di cache non 4 e 384bit.
In questo modo si risparmia spazio in cache e rop's e tutto potrebbe stare in un 550mm2.

Diventerebbe.
GV102: 5376cc/ 96 rop's/384bit.......550mm2
GV104: 3584cc/64 rop's /256bit......385mm2
GV106: 1792cc/32/48 rop's /192bit.

Bisogna vedere le rese di simili chip.

Preciso che i core non sono sparati ma matematici calcolati su base Pascal.

A livello di SMM vedo bene una soluzione alla Tesla.
con Volta, con GPC da 6/7 TPC (768/896cc).
i TPC di puro calcolo non sono esosi in superficie, si parla di 7,3mm2 per 128cc e 3,65mm2 per 64cc.
Questo metodo fa si che si possa lavorare appieno su gruppi di 64 ALU (come GCN) raddoppiando le istruzioni.

Lavorando a gruppi di 64 cuda, posso utilizzare il doppio delle istruzioni, senza gravare la cache, il risultato finale che ottengo è, minor accesso in cache-BW sgravata e minimi ancora superiori e latenze minime.

Maxwell in gran parte ha fatto questo, ha ingrandito la cache e le istruzioni. Però la cache costa tante risorse in silicio, la svio e utilizzo più istruzioni contemporanee.

Sinceramente un utilizzo così mi pare ottimo, perchè hai la possibilità di sfruttare il possibile, dovendo gestire le stesse rop's, la stessa cache ed i cuda al meglio.
Gravare di meno la banda, significa anche ottimizzare le risorse per i bus più piccoli, come quello che adotterà il GV104.

Fatto ciò, cerco di andare a riempimento con gli SMM per la potenza bruta come detto sopra

 
U

Utente cancellato 159815

Ospite
Di GV106 non si parla ancora stranamente, ma di GV110, forse per la volontà di distanziare maggiormente la classe GV104 dalla fascia dei prodotti sui 200-300 euro.
Anche se alcuni indicano GV110 come la Top.
Sicuramente ottimizzeranno la GPU come fatto con Maxwell perchè il di più questa volta deve essere di architettura, non di PP.
 

Mikael84

Utente Attivo
624
164
Di GV106 non si parla ancora stranamente, ma di GV110, forse per la volontà di distanziare maggiormente la classe GV104 dalla fascia dei prodotti sui 200-300 euro.
Anche se alcuni indicano GV110 come la Top.
Sicuramente ottimizzeranno la GPU come fatto con Maxwell perchè il di più questa volta deve essere di architettura, non di PP.

GV110 sarà il top Volta però compute.
Proprio su questo Volta scommette molto, infatti con questo chip vedremmo il nuovo standard NVLINK 2,0.
Non mancheranno le HBM grazie al collegamento a 128 rop's e 32gb, ogni stack passa da 4 a 8gb e la BW toccherà i 1,024 TF..

Sull'ultima riga dici bene, ecco perchè come scritto sopra vedo uno schema alla Tesla.
Aumentare cache e rop's costa in termini di produzione, la 1060 si è ritrovata 43mm2 più grande. Parliamo di soli 512kb e 16 rop's neppure elaborate.

Suddividere un SMM in 2 (grande 7,35mm2) fa in modo di poter essere più parallela, più vicina alla GCN e permette di utilizzare 1024 istruzioni.

Più istruzioni carichi contemporaneamente, meno vai in cache, meno hai latenze e migliori il rapporto dei minimi.

100000 istruzioni le elabori al click con 90cc su uno schema simile
100000 istruzioni su Maxwell/Pascal richiedono l'utilizzo di 2 TPC o se legato al solo SMM, devi caricare 65,k istruzioni e saturare parte di cache.

Le ram penso che saranno delle ddr5x pompate o delle ddr6 (stessa cosa) ma con data rate più elevato.
Non serve tanto BW se non aumenti le rop's.

Quando cambi processo produttivo, lavori sui raster e via, tanto hai il 33% di clock in più.
 
U

Utente cancellato 159815

Ospite
GV110 sarà il top Volta però compute.
Proprio su questo Volta scommette molto, infatti con questo chip vedremmo il nuovo standard NVLINK 2,0.
Non mancheranno le HBM grazie al collegamento a 128 rop's e 32gb, ogni stack passa da 4 a 8gb e la BW toccherà i 1,024 TF..

Sull'ultima riga dici bene, ecco perchè come scritto sopra vedo uno schema alla Tesla.
Aumentare cache e rop's costa in termini di produzione, la 1060 si è ritrovata 43mm2 più grande. Parliamo di soli 512kb e 16 rop's neppure elaborate.

Suddividere un SMM in 2 (grande 7,35mm2) fa in modo di poter essere più parallela, più vicina alla GCN e permette di utilizzare 1024 istruzioni.

Più istruzioni carichi contemporaneamente, meno vai in cache, meno hai latenze e migliori il rapporto dei minimi.

100000 istruzioni le elabori al click con 90cc su uno schema simile
100000 istruzioni su Maxwell/Pascal richiedono l'utilizzo di 2 TPC o se legato al solo SMM, devi caricare 65,k istruzioni e saturare parte di cache.

Le ram penso che saranno delle ddr5x pompate o delle ddr6 (stessa cosa) ma con data rate più elevato.
Non serve tanto BW se non aumenti le rop's.

Quando cambi processo produttivo, lavori sui raster e via, tanto hai il 33% di clock in più.

Sì può essere se riprende lo schema GK110 ecc.. ma con GV102, che potrebbe essere la nuova titan, mi aspetto che il Top sia GV100, questo 110 è dato come scheda "gaming", e per il gaming serve poco la doppia precisione e avere un chip di livello professionale.
 

Mikael84

Utente Attivo
624
164
Sì può essere se riprende lo schema GK110 ecc.. ma con GV102, che potrebbe essere la nuova titan, mi aspetto che il Top sia GV100, questo 110 è dato come scheda "gaming", e per il gaming serve poco la doppia precisione e avere un chip di livello professionale.

No che GK110.:)
GV100, HBM 32gb, 8gb per stack ed nvlink 2,0
GV 102 chip senza DP adattato a game.
 
U

Utente cancellato 159815

Ospite
Lo schema di nomi non l'architettura. :)
GV110 lo danno come soluzione Gaming, farlo con 32 Gb HBM2 e nvlink mi sembra assurdo, per questo credo sia in verità tutt'altra fascia, con GV102 che quasi sicuramente sarà Titan X Volta.
 

Mikael84

Utente Attivo
624
164
Lo schema di nomi non l'architettura. :)
GV110 lo danno come soluzione Gaming, farlo con 32 Gb HBM2 e nvlink mi sembra assurdo, per questo credo sia in verità tutt'altra fascia, con GV102 che quasi sicuramente sarà Titan X Volta.


Hbm come detto più volte non ha senso per un gaming per via delle partizioni cache e rop's morte.
Non so i nomi di preciso, ma Nvidia sta puntando più che altro al compute con GV100 o come si chiamerà alla fine, dove inserirà HBM2 32gb ed nvlink 2,0.
I restanti saranno i classici chip gaming, GV102/GV104 etc.

I tagli ram raddoppiano perchè gli MC saranno da 2gb, soluzione che adotterà già la quadro con 24gb (2 x 12 canali= 24gb).
Alcuni fattori mi sembrano quasi sicuri come le ram a 2gb e ddr5x 12-14 (anche ddr6 se ce la fanno con i tempi che alla fine è la stessa cosa)
 
U

Utente cancellato 159815

Ospite
Quindi per te 7 TPC in ogni GVC, limitati a 16 rops per GVC con 336 TMU potrebbe essere una soluzione che potrebbero adottare?
In effetti, in maniera puramente ipotetica, non è un'ipotesi tanto campata, certo avere una top da 5000 e rotti cuda fa paura.

Anche GV104 otterrebbe un bel boost sia quantitativo che di efficienza, staremo a vedere.
 

Mikael84

Utente Attivo
624
164
Si, io direi 6/7 TPC, migliorie a livello di istruzioni primarie per non gravare sulla cache, cache che per poter essere aumentata richiede molto spazio sul die e fondamentalmente un lavoro elettrico, che prevede di sistemare le connessioni lente e transistor a bassa perdita.
Lavorare anche con 6 TCP significherebbe arrivare a 3072cc, clock più elevati e IPC superiore.

Al prossimo step, sarà la volta dei raster da 32 pixel, solitamente vanno a multipli di 2 e quindi ben 1024cc per GPC. Questo mi fa pensare sempre più ad un Volta con più TPC per GPC e naturalmente circa +33% di core clock.
GV104 potrebbe essere così composto:
3072cc /64 rop's/ 256bit ddr5x 14 gb/s o
3584cc/64 rop's /256bit ddr5x 12 gb/s

Esempio concreto.
768cc a 1024 istruzioni x cc
16 rop's/512kb/l2 (64bit)
8 rop's/ 256kb x2 (32bit x2)
32bit 32bit
2gb 2gb

Sulla banda se non aumentano le rop's non ha senso spingere parecchio.
 
  • Mi piace
Reazioni: pribolo

RasTaFi

DIO DEI MONITOR
Utente Èlite
5,532
3,662
Io vedo possibili alcuni schemi legati a 6/7 TPC per GPC. Da quello che so Nvidia non riesce ancora ad aumentare i raster e sicuramente sarà bloccata a 16 pixel anche con Volta.

Teoricamente a livello di numeri si potrebbe realizzare anche un chip sopra i 5000 cuda.
8 GPC Pascal necessiterebbero di un core da circa 628mm2. Però 8 GPC significano un core da 5120cc /128 rop's e 4mb di cache l2/ 512bit.


Basta includere tutto nei 6 GPC e fare GPC da 896cc, limitare tutto a 16 rop's per GPC (96 finali), 3mb di cache non 4 e 384bit.
In questo modo si risparmia spazio in cache e rop's e tutto potrebbe stare in un 550mm2.


Diventerebbe.
GV102: 5376cc/ 96 rop's/384bit.......550mm2
GV104: 3584cc/64 rop's /256bit......385mm2
GV106: 1792cc/32/48 rop's /192bit.


Bisogna vedere le rese di simili chip.

Preciso che i core non sono sparati ma matematici calcolati su base Pascal.

A livello di SMM vedo bene una soluzione alla Tesla.
con Volta, con GPC da 6/7 TPC (768/896cc).
i TPC di puro calcolo non sono esosi in superficie, si parla di 7,3mm2 per 128cc e 3,65mm2 per 64cc.
Questo metodo fa si che si possa lavorare appieno su gruppi di 64 ALU (come GCN) raddoppiando le istruzioni.


Lavorando a gruppi di 64 cuda, posso utilizzare il doppio delle istruzioni, senza gravare la cache, il risultato finale che ottengo è, minor accesso in cache-BW sgravata e minimi ancora superiori e latenze minime.

Maxwell in gran parte ha fatto questo, ha ingrandito la cache e le istruzioni. Però la cache costa tante risorse in silicio, la svio e utilizzo più istruzioni contemporanee.

Sinceramente un utilizzo così mi pare ottimo, perchè hai la possibilità di sfruttare il possibile, dovendo gestire le stesse rop's, la stessa cache ed i cuda al meglio.
Gravare di meno la banda, significa anche ottimizzare le risorse per i bus più piccoli, come quello che adotterà il GV104.


Fatto ciò, cerco di andare a riempimento con gli SMM per la potenza bruta come detto sopra
Dove si imparano queste cose bellissime?:vv:
 

fedeprenc

Utente Èlite
6,736
1,959
CPU
AMD Ryzen 2700
Dissipatore
Wraith Spire RGB
Scheda Madre
ASUS X470 Gaming Strix-F
HDD
Barracuda 320Gb+Caviar Blue 250Gb+ WD Blue 1TB
RAM
8x2 Gskill TridentZ RGB 3200
GPU
MSI GTX 970 Gaming 4G
Audio
ah bho...non chiedetelo a me
Monitor
Dell S2417DG
PSU
XFX TS 550w
Case
Phanteks Enthoo PRO
Periferiche
Logitech G402-Cherry mx board 3.0
OS
Windows 10 Pro
Seguo!
Volta mi interessa molto più di pascal, qui potrei cambiare la mia 970...

Inviato dal mio GT-I9505 utilizzando Tapatalk
 
  • Mi piace
Reazioni: AlexTarana

Entra

oppure Accedi utilizzando
Discord Ufficiale Entra ora!

Discussioni Simili