Aspettando Nvidia Volta

Discussione in 'Discussioni Ufficiali (Schede Video)' iniziata da Lordpkappa, 3 Settembre 2016.

  1. Lordpkappa

    • Utente Binario

    Dal:
    4 Febbraio 2014
    Messaggi:
    5.682
    Mi Piace Ricevuti:
    2.392
    Specifiche Hardware
    [ASPETTANDO NVIDIA VOLTA]

    [​IMG]

    SPECIFICHE FINORA NOTE:

    Processo produttivo: 16 nm finFET
    Ram: HBM 2
    Modelli GPU: GV104, GV102, GV110


    [​IMG]

    Così avevamo salutato il 3d aspettando Maxwell, per passare in quello relativo alle GPU effettivamente annunciate, oggi partiamo con un altro step evolutivo delle architetture Nvidia, e quel Maggio 8-11 2017 pare sia diventata una data significativa anche per l'annuncio delle architetture consumer gaming potenziate con i vari GV104, GV110 e GV102 di cui però ancora non si conoscono le prerogative.

    Quello che sappiamo, per ora, è che si sta pensando, a differenza di Pascal che conserva SM del tutto simili a Maxwell, a un significativo step architetturale, dopo quello inerente il PP simile a quello che ha consentito a Maxwell di ottenere il 40% di performance in più dai Cuda Cores e il 50% di consumi in meno.
    Si era parlato anche di PP a 10 nm, ma è stato subito smentito ed è quasi confermato che sarà sviluppato con il medesimo PP di Pascal, i 10nm saranno saltati in favore dei 7 nm per le future architetture dalle ultime voci di corridoio.
    Come memoria si parla, per ora, unicamente di Ram HBM2 e ritorna alla grande la voce di Nvlink, ma questa volta anche per il mercato High Performance Gaming.
    Ricordo che nella prima Road Map delle nuove architetture Pascal non veniva nemmeno citato:

    [​IMG]

    Che Nvidia sia passata a un modello di upgrade dell'architettura simil Tick Tock Intel mi pare alquanto probabile, anche perchè già si parla di VOLTA revisionato su processo produttivo nuovo con un trattamento simil Maxwell-Pascal.

    VOLTA V100 (il chippone)

    [​IMG]

    [​IMG]

    ARCHITETTURA:

    [​IMG]

    DETTAGLIO SM

    [​IMG]

    IL SUPERAMENTO DEL WARP SCHEDULER

    [​IMG]

    In pratica una maggiore parallelizzazione dei Threads in fasi di elaborazione, una maggiore flessibilità, e sarà interessante capire ora le performance in ambito Async compute.
     
    #1 Lordpkappa, 3 Settembre 2016
    Ultima modifica: 11 Maggio 2017
    A Onafets26, pribolo e SolidSnake1989 piace questo elemento.
  2. techfede

    • Utente Binario

    Dal:
    6 Giugno 2015
    Messaggi:
    1.003
    Mi Piace Ricevuti:
    207
    Specifiche Hardware
    Ecco, questa mi interessa molto più di Pascal :sisi:
     
  3. Booker DeWitt

    • Utente Binario

    Dal:
    12 Dicembre 2009
    Messaggi:
    3.452
    Mi Piace Ricevuti:
    650
    Specifiche Hardware
    Alla fine Pascal non ha portato poi a molto, è più un ponte verso le Volta che dovrebbero spaccare un po' di culi.
     
  4. Mikael84

    • Utente Binario

    Dal:
    2 Marzo 2007
    Messaggi:
    601
    Mi Piace Ricevuti:
    167
    Specifiche Hardware
    Io vedo possibili alcuni schemi legati a 6/7 TPC per GPC. Da quello che so Nvidia non riesce ancora ad aumentare i raster e sicuramente sarà bloccata a 16 pixel anche con Volta.

    Teoricamente a livello di numeri si potrebbe realizzare anche un chip sopra i 5000 cuda.
    8 GPC Pascal necessiterebbero di un core da circa 628mm2. Però 8 GPC significano un core da 5120cc /128 rop's e 4mb di cache l2/ 512bit.

    Basta includere tutto nei 6 GPC e fare GPC da 896cc, limitare tutto a 16 rop's per GPC (96 finali), 3mb di cache non 4 e 384bit.
    In questo modo si risparmia spazio in cache e rop's e tutto potrebbe stare in un 550mm2.

    Diventerebbe.
    GV102: 5376cc/ 96 rop's/384bit.......550mm2
    GV104: 3584cc/64 rop's /256bit......385mm2
    GV106: 1792cc/32/48 rop's /192bit.

    Bisogna vedere le rese di simili chip.

    Preciso che i core non sono sparati ma matematici calcolati su base Pascal.

    A livello di SMM vedo bene una soluzione alla Tesla.
    con Volta, con GPC da 6/7 TPC (768/896cc).
    i TPC di puro calcolo non sono esosi in superficie, si parla di 7,3mm2 per 128cc e 3,65mm2 per 64cc.
    Questo metodo fa si che si possa lavorare appieno su gruppi di 64 ALU (come GCN) raddoppiando le istruzioni.

    Lavorando a gruppi di 64 cuda, posso utilizzare il doppio delle istruzioni, senza gravare la cache, il risultato finale che ottengo è, minor accesso in cache-BW sgravata e minimi ancora superiori e latenze minime.

    Maxwell in gran parte ha fatto questo, ha ingrandito la cache e le istruzioni. Però la cache costa tante risorse in silicio, la svio e utilizzo più istruzioni contemporanee.

    Sinceramente un utilizzo così mi pare ottimo, perchè hai la possibilità di sfruttare il possibile, dovendo gestire le stesse rop's, la stessa cache ed i cuda al meglio.
    Gravare di meno la banda, significa anche ottimizzare le risorse per i bus più piccoli, come quello che adotterà il GV104.

    Fatto ciò, cerco di andare a riempimento con gli SMM per la potenza bruta come detto sopra

     
    A pribolo, ste-87, RasTaFi e 1 altro utente piace questo messaggio.
  5. Lordpkappa

    • Utente Binario

    Dal:
    4 Febbraio 2014
    Messaggi:
    5.682
    Mi Piace Ricevuti:
    2.392
    Specifiche Hardware
    Di GV106 non si parla ancora stranamente, ma di GV110, forse per la volontà di distanziare maggiormente la classe GV104 dalla fascia dei prodotti sui 200-300 euro.
    Anche se alcuni indicano GV110 come la Top.
    Sicuramente ottimizzeranno la GPU come fatto con Maxwell perchè il di più questa volta deve essere di architettura, non di PP.
     
  6. Mikael84

    • Utente Binario

    Dal:
    2 Marzo 2007
    Messaggi:
    601
    Mi Piace Ricevuti:
    167
    Specifiche Hardware
    GV110 sarà il top Volta però compute.
    Proprio su questo Volta scommette molto, infatti con questo chip vedremmo il nuovo standard NVLINK 2,0.
    Non mancheranno le HBM grazie al collegamento a 128 rop's e 32gb, ogni stack passa da 4 a 8gb e la BW toccherà i 1,024 TF..

    Sull'ultima riga dici bene, ecco perchè come scritto sopra vedo uno schema alla Tesla.
    Aumentare cache e rop's costa in termini di produzione, la 1060 si è ritrovata 43mm2 più grande. Parliamo di soli 512kb e 16 rop's neppure elaborate.

    Suddividere un SMM in 2 (grande 7,35mm2) fa in modo di poter essere più parallela, più vicina alla GCN e permette di utilizzare 1024 istruzioni.

    Più istruzioni carichi contemporaneamente, meno vai in cache, meno hai latenze e migliori il rapporto dei minimi.

    100000 istruzioni le elabori al click con 90cc su uno schema simile
    100000 istruzioni su Maxwell/Pascal richiedono l'utilizzo di 2 TPC o se legato al solo SMM, devi caricare 65,k istruzioni e saturare parte di cache.

    Le ram penso che saranno delle ddr5x pompate o delle ddr6 (stessa cosa) ma con data rate più elevato.
    Non serve tanto BW se non aumenti le rop's.

    Quando cambi processo produttivo, lavori sui raster e via, tanto hai il 33% di clock in più.
     
  7. Lordpkappa

    • Utente Binario

    Dal:
    4 Febbraio 2014
    Messaggi:
    5.682
    Mi Piace Ricevuti:
    2.392
    Specifiche Hardware
    Sì può essere se riprende lo schema GK110 ecc.. ma con GV102, che potrebbe essere la nuova titan, mi aspetto che il Top sia GV100, questo 110 è dato come scheda "gaming", e per il gaming serve poco la doppia precisione e avere un chip di livello professionale.
     
  8. Mikael84

    • Utente Binario

    Dal:
    2 Marzo 2007
    Messaggi:
    601
    Mi Piace Ricevuti:
    167
    Specifiche Hardware
    No che GK110.:)
    GV100, HBM 32gb, 8gb per stack ed nvlink 2,0
    GV 102 chip senza DP adattato a game.
     
  9. Lordpkappa

    • Utente Binario

    Dal:
    4 Febbraio 2014
    Messaggi:
    5.682
    Mi Piace Ricevuti:
    2.392
    Specifiche Hardware
    Lo schema di nomi non l'architettura. :)
    GV110 lo danno come soluzione Gaming, farlo con 32 Gb HBM2 e nvlink mi sembra assurdo, per questo credo sia in verità tutt'altra fascia, con GV102 che quasi sicuramente sarà Titan X Volta.
     
  10. Mikael84

    • Utente Binario

    Dal:
    2 Marzo 2007
    Messaggi:
    601
    Mi Piace Ricevuti:
    167
    Specifiche Hardware

    Hbm come detto più volte non ha senso per un gaming per via delle partizioni cache e rop's morte.
    Non so i nomi di preciso, ma Nvidia sta puntando più che altro al compute con GV100 o come si chiamerà alla fine, dove inserirà HBM2 32gb ed nvlink 2,0.
    I restanti saranno i classici chip gaming, GV102/GV104 etc.

    I tagli ram raddoppiano perchè gli MC saranno da 2gb, soluzione che adotterà già la quadro con 24gb (2 x 12 canali= 24gb).
    Alcuni fattori mi sembrano quasi sicuri come le ram a 2gb e ddr5x 12-14 (anche ddr6 se ce la fanno con i tempi che alla fine è la stessa cosa)
     
    A Lordpkappa piace questo elemento.
  11. Lordpkappa

    • Utente Binario

    Dal:
    4 Febbraio 2014
    Messaggi:
    5.682
    Mi Piace Ricevuti:
    2.392
    Specifiche Hardware
    Quindi per te 7 TPC in ogni GVC, limitati a 16 rops per GVC con 336 TMU potrebbe essere una soluzione che potrebbero adottare?
    In effetti, in maniera puramente ipotetica, non è un'ipotesi tanto campata, certo avere una top da 5000 e rotti cuda fa paura.

    Anche GV104 otterrebbe un bel boost sia quantitativo che di efficienza, staremo a vedere.
     
  12. Mikael84

    • Utente Binario

    Dal:
    2 Marzo 2007
    Messaggi:
    601
    Mi Piace Ricevuti:
    167
    Specifiche Hardware
    Si, io direi 6/7 TPC, migliorie a livello di istruzioni primarie per non gravare sulla cache, cache che per poter essere aumentata richiede molto spazio sul die e fondamentalmente un lavoro elettrico, che prevede di sistemare le connessioni lente e transistor a bassa perdita.
    Lavorare anche con 6 TCP significherebbe arrivare a 3072cc, clock più elevati e IPC superiore.

    Al prossimo step, sarà la volta dei raster da 32 pixel, solitamente vanno a multipli di 2 e quindi ben 1024cc per GPC. Questo mi fa pensare sempre più ad un Volta con più TPC per GPC e naturalmente circa +33% di core clock.
    GV104 potrebbe essere così composto:
    3072cc /64 rop's/ 256bit ddr5x 14 gb/s o
    3584cc/64 rop's /256bit ddr5x 12 gb/s

    Esempio concreto.
    768cc a 1024 istruzioni x cc
    16 rop's/512kb/l2 (64bit)
    8 rop's/ 256kb x2 (32bit x2)
    32bit 32bit
    2gb 2gb

    Sulla banda se non aumentano le rop's non ha senso spingere parecchio.
     
    A pribolo piace questo elemento.
  13. RasTaFi

    Membro dello Staff
    • Utente Multithread

    Dal:
    6 Luglio 2015
    Messaggi:
    5.701
    Mi Piace Ricevuti:
    3.505
    Specifiche Hardware
    Dove si imparano queste cose bellissime?:vv:
     
  14. fedeprenc

    • Utente Diabolico

    Dal:
    10 Luglio 2015
    Messaggi:
    4.336
    Mi Piace Ricevuti:
    1.071
    Specifiche Hardware
    Seguo!
    Volta mi interessa molto più di pascal, qui potrei cambiare la mia 970...

    Inviato dal mio GT-I9505 utilizzando Tapatalk
     
    A AlexTarana piace questo elemento.
  15. Parcher

    • Utente Binario

    Dal:
    8 Gennaio 2009
    Messaggi:
    96
    Mi Piace Ricevuti:
    20
    Specifiche Hardware
    E non hai visto niente ancora di @Mikael84

    Inviato dal mio A0001 utilizzando Tapatalk
     
    A Lordpkappa piace questo elemento.

Condividi questa Pagina