Tom's Hardware Italia
Schede Grafiche

Intel Gen11, tutto quello che dovete sapere

Come cambia l'architettura delle GPU integrate Intel con la nuova Gen11 a bordo delle CPU a 10 nanometri Ice Lake. Tutte le informazioni note e le indiscrezioni.

Entro l’anno Intel porterà la nuova architettura grafica integrata Gen11 sul mercato, anzitutto nel settore mobile. La troveremo a bordo dei processori Ice Lake a 10 nanometri (basati sul core Sunny Cove). Un documento pubblicato dalla stessa Intel fa luce sulle caratteristiche tecniche della nuova GPU integrata.

I primi dettagli su Gen11 risalgono all’Architecture Day di dicembre, dove Intel spiegò che stava lavorando sodo per migliorare marcatamente le prestazioni, con l’obiettivo di arrivare a 1 teraflops con calcoli FP32 e 2 teraflops con calcoli a FP16, il tutto consumando il meno possibile.

Parametri chiave di picco Gen9 GT2
Gen11 GT2
Attributi Slice
# di Slice 1 1
# di Sub-Slice 3 8
# di core (EU) 24 (3×8) 64 (8×8)
Single Precision FLOPs per Clock (MAD) 384 1024
Half Precision FLOPs per Clock (MAD) 768 2048
File di registro totale 672KB (=3×22 4KB) 1792KB (=8×22 4KB)
# di Sampler 3 8
Point/Bilinear Texel’s/Clock (32bpt) 12 32
Point/Bilinear Texel’s/Clock (64bpt) 12 32
Memori locale condivisa totale 192KB (=3x64KB) 512KB (=8 x 64KB)
Attributi Slice-Common
Cache L3 768KB 3072KB
Attributi globali
Bandwidth GTI (Byte/Clock) R: 64 W: 32 R:64 W:64
Configurazione LLC 2 – 8 MB TBD
Configurazione DRAM 2×64 LPDDR3/DDR4 4×32 LPDDR4/DDR4
*Nota – la Cache L3 su Gen9 include SLM

Per la nuova architettura Intel ha adottato una disposizione modulare che ci è piuttosto familiare, con “subslice” che ospitano otto execution unit (EU). Intel ha tuttavia ampliato il progetto portandolo a 8 subslice, o 64 execution unit (EU). Un grande miglioramento rispetto ai 24 EU della Gen9. La GPU è inoltre in grado di processare due pixel per ciclo di clock e supporta ovviamente tutte le API moderne – con funzioni come il Variable Rate Shading.

Il progetto system on chip (SoC) è connesso tramite un’interconnessione ad anello (ring) che collega insieme i core x86, quelli della GPU, la LLC (Last Level Cache) e le funzioni “systemagent (PCIe, memoria e controller video). La Last Level Cache è condivisa tra i core grafici e quelli di calcolo. Il SoC ha numerosi domini di frequenza (clock domain) suddivisi tra i core x86, la grafica e l’interconnessione ring.

Il nuovo progetto supporta il tile-based rendering oltre all’immediate mode rendering, che aiuta a ridurre la richiesta di memoria durante alcuni carichi di rendering. Ogni slice ospita un “3D Fixed Function Geometry”, otto sub-slice che contengono gli EU e uno “slice common” in cui ci sono i vari blocchi a funzione fissa e la cache L3.

Gli ingegneri hanno inoltre migliorato il sottosistema di memoria, quadruplicando la cache L3 a 3 MB e separando la memoria locale condivisa per promuovere il parallelismo. Il nuovo design ha inoltre algoritmi di compressione della memoria migliorati.

Altri passi avanti includono un nuovo HEVC Quick Sync Video che offre una riduzione del bitrate fino al 30% rispetto alla Gen9 (con la stessa o migliore qualità visiva), la capacità di gestire più flussi video 4K e 8K consumando meno e il supporto alla tecnologia Adaptive Sync. Intel ha anche migliorato la decodifica, con una VP9 decode bit depth che sale a 10 bit (da 8) per supportare video HDR.

Entrando maggiormente nel dettaglio dello slice, possiamo vedere che ogni slice ha otto subslice, ognuna con 8 EU. Ogni sublisce ha un unità local thread dispatcher e le proprie cache instruction ad alimentarlo. Una memoria condivisa locale (shared local memory, SLM), una 3D texture sampler unit, la media sampler unit e la dataport unit completano ogni subslice.

Per quanto riguarda le execution unit (EU), ci sono un paio di SIMD floating-point unit (ALU), che supportano sia operazioni in virgola mobile che integer. Intel afferma che le ALU sono in grado di svolgere quattro operazioni FP32 o integer, o fino a otto operazioni FP16. Questo equivale a 16 operazioni FP32 per clock, o 32 operazioni FP16 per ciclo di clock. Le EU sono inoltre multithreaded e offrono una combinazione di simultaneous multi-threading (SMT) e fine-grained interleaved multi-threading (IMT).

Uno sguardo più ravvicinato alla progettazione della memoria locale condivisa (shared local memory, SLM), che alimenta gli otto UE in ciascuna sottosezione, rivela che Intel ha introdotto SLM nel subslice per ridurre la contesa attraverso la porta dati quando si accede in modo simultaneo alla cache L3. La prossimità di SLM con gli EU aiuta anche a ridurre la latenza e aumenta l’efficienza.

Qui sopra vediamo una vista a volo d’uccello della gerarchia della memoria e i bandwidth di picco teorici tra i componenti. La mossa di Intel di supportare LPDDR4 rappresenta un significativo passo in avanti per quanto riguarda il bandwidth sul fronte dei bassi consumi, ma la vera innovazione risiede nella progettazione della memoria condivisa che riduce la necessità di copiare i dati lungo i buffer.

Prestazioni Intel Gen11

Oltre alle stime di Intel sulla potenza di calcolo, in rete è emerso un test di un futuro processore Ice Lake quad-core (dotato di Hyper-Threading) con grafica Gen11 alle prese con il benchmark di Ashes of the Singularity (AoTS). Il processore, a quanto pare, ha una frequenza base di 1,3 GHz, il che lascia pensare a una versione a basso consumo, probabilmente destinata ai portatili, tesi avvalorata dal suffisso LP nella descrizione della GPU. Insomma non dovrebbe trattarsi dell’incarnazione più potente.

Il chip è stato testato con l’ultima revisione del gioco con preset Low (1080p) e API DirectX 11. In base ai risultati, la Gen11 supera l’attuale Intel UHD Graphics 630 del 26,89%. Rispetto a una soluzione AMD Vega 10 (Ryzen mobile di seconda generazione), la Gen11 appare leggermente più veloce (1,34%) ma è dietro Vega 11 (Ryzen 5 2400G) di circa il 94,04%. Allo stesso tempo, la Gen11 in questa variante è il 49,67% più lenta di una GeForce MX130 di Nvidia, che tuttavia è una GPU dedicata.

Media Normal Batch Medium Batch Heavy Batch
Vega 11 (Ryzen 5 2400G) 29.3 FPS 35.4 FPS 29.3 FPS 24.9 FPS
Nvidia GeForce MX150 25.6 FPS 28.2 FPS 26.7 FPS 22.5 FPS
Nvidia GeForce MX130 22.6 FPS 27.7 FPS 23.1 FPS 18.7 FPS
Gen11 15.1 FPS 20.4 FPS 15.7 FPS 11.8 FPS
Vega 10 (Ryzen 7 2700U) 14.9 FPS 18.4 FPS 15.6 FPS 12.1 FPS
UHD Graphics 630 (i7-8700) 11.9 FPS 14.2 FPS 12.2 FPS 10.1 FPS
UHD Graphics 620 (i5-8250U) 9.9 FPS 12.4 FPS 10.7 FPS 7.8 FPS

Versioni conosciute di Intel Gen11

La distinzione GT1 / GT2 permette di avere un’idea di massima delle specifiche della GPU integrata Intel Gen11, tuttavia all’interno del file INF degli ultimi driver di Intel sono emersi i nomi di molte varianti. Sembra che le versioni più prestanti di Gen11 prenderanno il nome di Intel Iris Plus Graphics 950 e 940, con altre varianti chiamate 930, 920, 910 e Gen 11 LP. Nella tabella di seguito le specifiche tecniche note:

Model Number Nome in codice Livello Execution Unit Unità shader
Intel Iris Plus Graphics 950 iICL11LPGT2U6425W GT2 64 512
Intel Iris Plus Graphics 940 iICL11LPGT2U64 GT2 64 512
Intel Iris Plus Graphics 940 iICL11LPGT2U48 GT2 48 384
Intel Iris Plus Graphics 930 iICL11LPGT2Y64 GT2 64 512
Intel Iris Plus Graphics 930 iICL11LPGT2Y32 GT2 32 256
Intel UHD Graphics 920 iICL11LPGT2U32LM GT2 32 256
Intel UHD Graphics 910 iICL11LPGT2Y32LM GT2 32 256
Intel UHD Graphics, Gen11 LP iICL11LPGT2Y48 GT2 48 384
Intel UHD Graphics, Gen11 LP iICL11LPGT2Y48LM GT2 48 384
Intel UHD Graphics, Gen11 LP iICL11LPGT2U48LM GT2 48 384
Intel UHD Graphics, Gen11 LP iICL11LPGT2U32 GT2 32 256
Intel UHD Graphics, Gen11 LP iICL11LPGT0 GT0 N/A N/A
Intel UHD Graphics, Gen11 LP iICL11LPGT0P5 GT0 N/A N/A

*questo articolo sarà continuamente aggiornato non appena si conosceranno maggiori informazioni.