Architettura NetBurst : Ora 31 stage di Pipeline

Intel ha iniziato la transizione dal processo produttivo a 130 a quello a 90 nanometri con un ritardo di molti mesi. Il nuovo raccolto di processori, marchiati con una E aggiuntiva, Ã¨ ora disponibile solo con frequenza a 3.2 GHz, in attesa della versione 3.4 GHz. Nel frattempo il Pentium 4 Extreme Edition ribadisce la propria leadership con la variante a 3.4 GHz, seguito dai Northwood â€œnormaliâ€ sempre a 3.4 GHz.

Architettura NetBurst: Pipeline a 31 stadi

NetBurst Architecture: Now 31 Pipeline Stages

Il diagramma a blocchi del Prescott non è molto differente da quello del Northwood o di Willamette, siccome non ci sono stati grandi cambiamenti.

Cache di grosse dimensioni o istruzioni addizionali non aumentano necessariamente le prestazioni di un processore, diamo quindi un'occhiata nel dettaglio alle novità.

Prima di tutto, cerchiamo di riassumere quello che accade all'interno di un Pentium 4: le istruzioni sono ricevute dal sistema di bus a 128-bit, 200-MHz e 6.4 GB/sec. Dopo entrano nella cache L2. Il prefetcher analizza le istruzioni e attiva il BTB (Branch Target Buffer) attuando il branch prediction, per cercare di determinare il dato successivo che potrebbe essere richiesto. Successivamente, le istruzioni vengono spedite nel decoder che traduce i dati x86 in micro operazioni.

Le istruzioni x86 possono essere complesse e caratterizzate da frequenti loop; questo è il motivo per cui Intel ha abbandonato la classica "L1 istruction cache" a favore della "Execution Trace Cache". Questa è basata su micro operazioni ed è posizionata dietro l'Instruction Decoder, eliminando così il lavoro di decoding non necessario. L'Execution Trace Cache immagazzina e riorganizza catene multiple di micro operazioni con l'intento di passarle al "Rapid Execution Engine" in maniera efficiente.

Il primo cambiamento di una certa entità è caratterizzate dal "Branch Target Buffer " e dall' "Instruction Decoder". Se il BTB non provvede ad un corretto bracnh prediction, l'"Instruction Decoder" produrrà una "static prediction" che si suppone abbia un minimo impatto sulle performance nel caso la predizione sia errata. Il minimo impatto può essere realizzato grazie a un incremento del processo "loop detection". Il brach prediction dinamico è stato aggiornato e ora le moltiplicazioni intere sono eseguite da un'unità dedicata.

Il Bracnh predition è un elemento del core che può portare molto beneficio in termini di performance. Se il processore conosce a priori i dati che saranno richiesti, sarà capace di riempire la sua pipeline in maniera efficiente. Questo è ora più che mai molto importante dato che la pipeline è stata portata da 20 stadi a 31 stadi. Intel ha cercato di ridurre la complessità di ogni stadio in modo da aumentare la velocità del clock. Come risposta, il processore è però diventato più vulnerabile alla predizioni errate.