Nel dettaglio: unità scalare e SMT
I core sono basati sul design Pentium, con alcune sostanziali modifiche. Il P54C è senza dubbio un'unità scalare, che usa la pipeline esecutiva superscalare Pentium con due unità, U e V.
La prima è in grado di eseguire tutte le istruzioni scalari x86, mentre la seconda è limitata a un subset di istruzioni (escluse, per esempio, istruzioni aritmetiche e logiche complesse come la moltiplicazione e la divisione). Intel ha effettuato alcune modifiche al core Pentium. Prima di tutto, gli ingegneri hanno aggiunto il supporto ai 64-bit, e hanno aggiunto diverse istruzioni per il controllo della cache a due livelli. Queste istruzioni sono molto importanti per le applicazioni di tipo streaming, che non seguono il principio della temporal locality, usato da un'applicazione tradizionale. Questo significa che, una volta che viene eseguita un'operazione su un dato, questa non si ripeterà in un breve periodo di tempo.
Questo comportamento tende a mostrarsi disastroso con l'uso dell'algoritmo LRU, che spende molto tempo a scartare i dati importanti che verranno usati solo una volta dalla cache dati. Consci di questo problema, gli ingegneri di Larrabee hanno aggiunto informazioni per marchiare linee di cache dati come a bassa priorità, indicando che il dato in quella posizione può essere rimpiazzato subito dopo averlo utilizzato. In questo modo, Intel ha combinato il meglio di due mondi: scratched-type (buffer memory) operation e la trasparenza di una memoria cache standard, con il meccanismo di coerenza tra le cache di differenti core.
Un altro cambiamento sta nell'aggiunta del Simultaneous Multithreading (SMT ). Questa tecnologia è ritornata solo nell'architettura Intel Core i7, ed è presente nei processori Larrabee, dove la sua importanza è incrementata dalla natura in-order dei core. Le CPU moderne sono in grado di riorganizzare l'esecuzione delle istruzioni per massimizzare l'uso delle unità di calcolo, cosa che Larrabee non può fare. Alcune sequenze di codice, quindi, richiedono poche risorse, ma interlacciando più thread, è possibile incrementare l'efficienza. Se il blocco di istruzioni uno è la seconda istruzione the thread A, tutto quello che si dovrà fare è sostituire i thread e eseguire l'istruzione uno sul thread B.
Gli ingegneri hanno abilitato l'esecuzione di quattro thread per core, ovviamente con registri separati per ognuno. Usando quattro thread si eliminano anche i problemi di latenza d'accesso alla cache L1. Per non diminuire l'efficienza della cache dati e istruzioni L1, la loro dimensione è stata incrementata da 8 KB cadauna del Pentium a 32 kB dei core Larrabee.