Avatar di Manolo De Agostini

a cura di Manolo De Agostini

ARM ha presentato Cortex-A76, un nuovo core di fascia alta che permetterà di creare processori più potenti non solo per gli smartphone, ma soprattutto per la nascente branca dei portatili con chip ARM, alternativi ai classici prodotti con CPU x86 di Intel e AMD.

arm cortex a76 03

Clicca per ingrandire

Gli ingegneri dell'azienda britannica (nelle mani della giapponese Softbank) hanno lavorato con un obiettivo: superare le prestazioni dei design concorrenti, occupando un'area pari alla metà e con consumi molto più contenuti.

Attenzione è stata riposta alla riduzione della latenza e all'eliminazione dei colli di bottiglia che riguardano il bandwidth. Tra gli obiettivi principali anche l'eliminazione di cicli sprecati del processore, ossia i tentativi di recuperare i dati corretti dalla memoria molto rapidamente. Per farlo ARM ha disaccoppiato l'unità di branch prediction di A76 dall'instruction fetcher e l'ha impostata per operare a una velocità doppia rispetto all'instruction fetcher.

arm cortex a76 04

Clicca per ingrandire

In questo modo è possibile "mascherare" gli errori di previsione del branch predictor, facendo sì che il fetch abbia sempre la propria coda di lavoro piena. ARM sostiene che è più efficiente "bruciare" cicli di lavoro in corrispondenza del branch predictor che sull'intero core.

arm cortex a76 01

L'execution core di A76 consiste di un'unità branch, due ALU semplici e una combinazione di una ALU semplice e multi-ciclo per carichi integer. Il core guadagna inoltre una doppia pipeline ASIMD/FP a 128-bit per fornire un bandwidth doppio rispetto alle precedenti CPU ARM. Questo salto delle ASIMD contribuisce a un incremento delle prestazioni di machine learning di quasi quattro volte rispetto all'A75.

arm cortex a76 06
arm cortex a76 08
arm cortex a76 07

Cortex-A76 integra 64 KB di cache L1, sia istruction che data, una cache L2 privata di 256-512 KB e 2-4 MB di cache L3 condivisa. Per quanto riguarda le prestazioni, ARM parla di un balzo in avanti del 35% rispetto al Cortex-A75, mantenendo un'efficienza del 40% superiore. 

Questi dati sono stati ottenuti confrontando un A76 a 7 nanometri e 3 GHz e un A75 a 2,8 GHz prodotto a 10 nanometri. Altri test indicano comunque un miglioramento del 25% nelle operazioni integer IPC (SPECINT), un +35% delle prestazioni ASIMD/FP (SPECFP) e un aumento del 90% per quanto riguarda il bandwidth di memoria (LMBench).

arm cortex a76 05

Clicca per ingrandire

Tutto questo porta ARM a parlare di prestazioni di classe "portatile" per A76. Secondo ARM il core A76 non si comporta molto diversamente da un core Skylake di Intel, con una differenza prestazionale entro il 10% con gli stessi limiti termici, ma occupando un'area pari alla metà.

A76 è progettato per essere usato come "big core" in cluster DynamIQ, insieme quindi al core "Little" Cortex-A55 come controparte. Sarà quindi possibile, come in passato, creare SoC a 8 core configurati con quattro A76 e altrettanti A55, o mettere a punto altre configurazioni per rispondere alle varie necessità del mercato.

Il Cortex-A76, inoltre, offre un sistema di memoria ottimizzato che sarà isolato dal sistema operativo principale tramite tecnologia TrustZone.

GPU Mali-G76 e VPU Mali-V76

ARM ha annunciato anche nuovi progetti che riguardano GPU e VPU. La nuova GPU Mali-G76 rappresenta la terza generazione dell'architettura Bifrost e rispetto alla precedente G72 promette un aumento di densità prestazionale ed efficienza energetica del 30%, garantendo un incremento prestazionale di 2,7 volte nei carichi di machine learning.

arm mali g76 02

Clicca per ingrandire

Il G76 è stato progettato sulla base di un processo a 7 nanometri, rispetto ai 10 nanometri del G72. ARM stima un incremento prestazionale del 20% dal solo die shrink il che, combinato con il miglioramento della densità prestazionale del 30%, porta a un incremento delle prestazioni di 1,5 volte.

arm mali g76 01

Dal punto di vista dell'architettura, la GPU G76 offre tre execution engine per shader core. Ogni execution engine ha ora 8 linee di esecuzione rispetto alle quattro di G72. Perciò, mentre il numero massimo di core è stato ridotto a 20, rispetto a 32, il numero totale di linee di esecuzione è cresciuto del 25%. Le execution unit supportano inoltre int8 dot product per prestazioni di machine learning migliorate.

ARM ha anche rivisto l'unità texture rispetto al G72, con una doppia unità in grado di tenere il passo degli execution engine. L'unità diventa così in grado di processare due 2 texel per ciclo.

arm mali v76 01

Per quanto riguarda la VPU Mali-V76, sono raddoppiate le prestazioni di decodifica rispetto alla precedente VPU. Non manca il supporto alla decodifica di video 8K a 60 fps o a quattro video 4K a 60 fps. La VPU supporta anche 16 flussi 1080p, permettendo di creare videowall 4x4, che sono molto popolari nel mercato cinese. Date le alte prestazioni della VPU, ARM sottolinea che è già pronta per applicazioni VR e AR con risoluzioni superiori a quelle attuali.


Tom's Consiglia

Xiaomi Redmi 5 Plus è uno smartphone con un ottimo rapporto tra qualità e prezzo. Con lo Snapdragon 625 accoppiato a 4 GB di RAM e a 64 GB di storage, è disponibile all'acquisto su Amazon a meno di 200 euro. Lo trovate a questo link.