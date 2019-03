Come cambia l'architettura delle GPU integrate Intel con la nuova Gen11 a bordo delle CPU a 10 nanometri Ice Lake.

Un documento pubblicato da Intel, dedicato all’architettura grafica integrata Gen11, ci permette di conoscere alcune delle caratteristiche della GPU che vedremo a bordo dei processori Ice Lake a 10 nanometri (basati sul core Sunny Cove), attesi al debutto entro fine anno in ambito mobile.

I primi dettagli su Gen11 risalgono all’Architecture Day di dicembre, dove Intel spiegò che stava lavorando sodo per migliorare marcatamente le prestazioni, con l’obiettivo di arrivare a 1 teraflops con calcoli FP32 e 2 teraflops con calcoli a FP16, il tutto consumando il meno possibile.

Parametri chiave di picco Gen9 GT2

Gen11 GT2

Attributi Slice # di Slice 1 1 # di Sub-Slice 3 8 # di core (EU) 24 (3×8) 64 (8×8) Single Precision FLOPs per Clock (MAD) 384 1024 Half Precision FLOPs per Clock (MAD) 768 2048 File di registro totale 672KB (=3×22 4KB) 1792KB (=8×22 4KB) # di Sampler 3 8 Point/Bilinear Texel’s/Clock (32bpt) 12 32 Point/Bilinear Texel’s/Clock (64bpt) 12 32 Memori locale condivisa totale 192KB (=3x64KB) 512KB (=8 x 64KB) Attributi Slice-Common

Cache L3 768KB 3072KB Attributi globali Bandwidth GTI (Byte/Clock) R: 64 W: 32 R:64 W:64 Configurazione LLC 2 – 8 MB TBD Configurazione DRAM 2×64 LPDDR3/DDR4 4×32 LPDDR4/DDR4 *Nota – la Cache L3 su Gen9 include SLM

Per la nuova architettura Intel ha adottato una disposizione modulare che ci è piuttosto familiare, con “subslice” che ospitano otto execution unit (EU). Intel ha tuttavia ampliato il progetto portandolo a 8 subslice, o 64 execution unit (EU). Un grande miglioramento rispetto ai 24 EU della Gen9. La GPU è inoltre in grado di processare due pixel per ciclo di clock e supporta ovviamente tutte le API moderne – con funzioni come il Variable Rate Shading.

Il progetto system on chip (SoC) è connesso tramite un’interconnessione ad anello (ring) che collega insieme i core x86, quelli della GPU, la LLC (Last Level Cache) e le funzioni “systemagent“ (PCIe, memoria e controller video). La Last Level Cache è condivisa tra i core grafici e quelli di calcolo. Il SoC ha numerosi domini di frequenza (clock domain) suddivisi tra i core x86, la grafica e l’interconnessione ring.

Il nuovo progetto supporta il tile-based rendering oltre all’immediate mode rendering, che aiuta a ridurre la richiesta di memoria durante alcuni carichi di rendering. Ogni slice ospita un “3D Fixed Function Geometry”, otto sub-slice che contengono gli EU e uno “slice common” in cui ci sono i vari blocchi a funzione fissa e la cache L3.



Gli ingegneri hanno inoltre migliorato il sottosistema di memoria, quadruplicando la cache L3 a 3 MB e separando la memoria locale condivisa per promuovere il parallelismo. Il nuovo design ha inoltre algoritmi di compressione della memoria migliorati.

Altri passi avanti includono un nuovo HEVC Quick Sync Video che offre una riduzione del bitrate fino al 30% rispetto alla Gen9 (con la stessa o migliore qualità visiva), la capacità di gestire più flussi video 4K e 8K consumando meno e il supporto alla tecnologia Adaptive Sync. Intel ha anche migliorato la decodifica, con una VP9 decode bit depth che sale a 10 bit (da 8) per supportare video HDR.

Entrando maggiormente nel dettaglio dello slice, possiamo vedere che ogni slice ha otto subslice, ognuna con 8 EU. Ogni sublisce ha un unità local thread dispatcher e le proprie cache instruction ad alimentarlo. Una memoria condivisa locale (shared local memory, SLM), una 3D texture sampler unit, la media sampler unit e la dataport unit completano ogni subslice.

Per quanto riguarda le execution unit (EU), ci sono un paio di SIMD floating-point unit (ALU), che supportano sia operazioni in virgola mobile che integer. Intel afferma che le ALU sono in grado di svolgere quattro operazioni FP32 o integer, o fino a otto operazioni FP16. Questo equivale a 16 operazioni FP32 per clock, o 32 operazioni FP16 per ciclo di clock. Le EU sono inoltre multithreaded e offrono una combinazione di simultaneous multi-threading (SMT) e fine-grained interleaved multi-threading (IMT).

Uno sguardo più ravvicinato alla progettazione della memoria locale condivisa (shared local memory, SLM), che alimenta gli otto UE in ciascuna sottosezione, rivela che Intel ha introdotto SLM nel subslice per ridurre la contesa attraverso la porta dati quando si accede in modo simultaneo alla cache L3. La prossimità di SLM con gli EU aiuta anche a ridurre la latenza e aumenta l’efficienza.

Qui sopra vediamo una vista a volo d’uccello della gerarchia della memoria e i bandwidth di picco teorici tra i componenti. La mossa di Intel di supportare LPDDR4 rappresenta un significativo passo in avanti per quanto riguarda il bandwidth sul fronte dei bassi consumi, ma la vera innovazione risiede nella progettazione della memoria condivisa che riduce la necessità di copiare i dati lungo i buffer.

*questo articolo sarà continuamente aggiornato non appena si conosceranno maggiori informazioni