A questo punto potrebbero lanciare la ti come 1180ti (o comunque con un numero successivo) e scendere con il resto della gamma con i refresh.
I soliti casini, ora comunque è aperto...
Quello che rende questi rumors piuttosto credibili è il fatto che dopotutto Nvidia può permettersi di allungare i tempi. Pur non avendo una architettura perfetta per le nuove API (perchè neanche Pascal lo è) può contare sul fatto che l'adozione delle DX12 sarà lenta e graduale e sul fatto che ha una GPU, il GP102, che a forza bruta sarà probabilmente un pezzo sopra anche alla nuova Vega10, stando ai rumors trapelati finora e che quindi le garantirà la leadership prestazionale ancora per un po' di tempo.
Inoltre il fatto che sia TSMC, siaSamsung, salteranno i 10nm in ambito desktop, potrebbe portare un allungamento del tempo di permanenza sul mercato di questi 14\16Nm, per cui se voglio far uscire dei nuovi prodotti ogni anno, escludendo l'ipotesi di una terza architettura a 14nm, serve per forza un refresh.
Attenzione che Nvidia non è che sia scarsa in DX12 ma non gode del lavoro asyncrono perchè l'architettura è già ben sfruttata grazie al command processor scalabile. Con le dx12, AMD svolge un lavoro simultaneo che va diretto allo shader core, che come l'HT riempie gli shader in idle. AMD lavora in ms come maxwell (pascal in ns per via della posizione in cache) ma può sostenere 128 code senza problemi, inoltre non ha bisogno di programmazione avendo ACE hardware che lavorano in modo diretto. Nvidia deve programmare e restare sulle 32 latenze, ma attenzione non è sempre un bene.
Se l'architettura Nvidia viene sfruttata al 90%, significa che vari shader devono essere impegnati in un lavoro asyncrono, calcolando altri dati (illuminazione, ombre etc) secondari, lasciando lo shader core primario a calcolare i dati principali.
Una volta che ho svolto compiti paralleli li metto nei file di registro ed in cache creando delle code.
Queste code mi occupano sempre più spazio e creano problemi alle ALU primarie che accedono a cache e registri, quindi devo programmare il driver affinchè l'architettura riesca ad utilizzare certi lavori paralleli altrimenti perdo cicli di clock e latenze. L'accesso cache già di per se richiede dai 10 ai 15 cicli.
Come per Vulkan, se ho l'architettura al 100% le dx12 non mi servono.
Quando si parla di potenza potenza bruta, ricordo che Nvidia esegue un warp da 32 cuda in 8 cicli (ovvero 4 cuda in un ciclo), mentre le SFU lavorano in 4 cicli e producono un pixel (rop's) ogni 4 cicli.
AMD invece esegue un CU in 4 cicli (vect1-2-3-4-) e di conseguenza può elaborare anche una singola istruzione da 128 ST (come lo SMM nvidia) in 11 cicli (4 a CU + 3 ovvero quelle che passano da un vettore all'altro).