Le CPU Ampere per i carichi di lavoro dell'IA generalista

Il futuro dell'IA generalista potrebbero essere le CPU; nel caso di Ampere Computing, i chip offrono migliori performance a prezzi contenuti.

Avatar di Marina Londei

a cura di Marina Londei

Editor

Quando si parla delle operazioni di intelligenza artificiale solitamente si pensa all'utilizzo di CPU ad alte prestazioni e GPU, soprattutto per il training dei modelli.

L'addestramento dei modelli AI beneficia notevolmente dall'uso di acceleratori come GPU o circuiti integrati specifici per applicazioni (ASIC), ma anche le CPU possono svolgere un ruolo importante in queste operazioni.

B2B Labs Il GDPR non è nemico delle aziende (e non se andrà) - Guido Scorza
youtube play
Guarda su youtube logo

Patrick Moorhead, analista e autore per Forbes, porta l'esempio di Ampere Computing, società produttrice di semiconduttori che ha progettato le sue CPU specificamente per le applicazioni di intelligenza artificiale. 

Pixabay
previsioni tecnologia Forrester

Ampere Computing deve il suo successo alle CPU Arm general purpose per il cloud, ma i suoi prodotti sono ottimizzati per gestire i due elementi fondamentali delle operazioni di IA: il volume di dati e la complessità dei modelli. Le CPU Ampere, grazie al supporto nativo per formato di dati FP16 per il machine learning, riescono a raddoppiare la velocità di esecuzione dei carichi di lavoro generalisti dell'IA e rappresentano così un ottima soluzione per molti casi d'uso.

Le performance delle CPU Ampere Computing

Il mercato dell'IA è concentrato sulle GPU NVIDIA, capaci di gestire carichi di lavoro di IA ingenti, ma le imprese potrebbero non avere bisogno di tutta quella potenza. Secondo Moorhead è molto probabile che ci sia una sovra-allocazione di risorse, sia per il training che per l'inferenza; le CPU di Ampere Computing possono in tal senso garantire le performance necessarie a prezzi più contenuti.

Durante l'addestramento le attività principali consistono nella data preparation, nell'estrazione di feature per ridurre la dimensionalità dei dati e nella gestione dei flussi dati da e verso le GPU; ciò, spiega Moorhead, implica l'utilizzo di una CPU con un numero elevato di core, maggior velocità di clock, più memoria e I/O veloce per parallelizzare le operazioni.

Le CPU Ampere, in particolare Ampere Altra e Ampere One, possono scalare fino a 192 core single-threaded e garantire performance predicibili e scalabili, ottimizzate per i carichi di lavoro paralleli. Durante la fase d'inferenza, riuscire a gestire richieste simultanea significa ottenere risultati più velocemente, a vantaggio dei clienti dell'azienda e di conseguenza del business.

Pixabay
CPU IA

Poiché ogni core Ampere è a thread singolo, le prestazioni sono garantite: niente stalli di pipeline, problemi di contesa della cache o problemi di larghezza di banda della memoria, caratteristiche fondamentali per l'inferenza che richiede performance in tempo reale o quasi. 

Stando ai dati di benchmark condivisi da Ampere, le performance di inferenza delle CPU della compagnia superano di 3.6 volte quelle della CPU AMD Milan e addirittura di 6 volte quelle della CPU Ice Lake di Intel. 

Anche dal punto di vista dei costi i chip della compagnia risultano più vantaggiosi: rispetto alla piattaforma Ampere A1 v Graviton 2 di AWS OCI, i costi dell'AI in cloud diminuiscono di 11.8 volte con le CPU Ampere.

Non tutti i carichi di lavoro di intelligenza artificiale richiedono la CPU più potente e la GPU più potente, ricorda Moorhead. Secondo l'autore, le architetture delle CPU si evolveranno per tenere conto delle esigenze specifiche dell'IA e offrire performance sempre migliori. Le CPU di Ampere Computing possono rappresentare un'alternativa molto valida, soprattutto per i workload più "mainstream".

Le GPU verranno comunque utilizzate nei data center a prestazioni elevate, soprattutto per i carichi di lavoro di nuova generazione che, spiega Moorhead, col tempo verranno inglobati nei SoC (Security Operation Center).

Leggi altri articoli