Google amplia l'offerta per l'intelligenza artificiale in cloud

Google ha ampliato sua offerta di infrastruttura ottimizzata per i carichi di intelligenza artificiale in cloud con l'annuncio di una nuova TPU (Tensor Processing Unit), la v53e, e la disponibilità generale delle nuove macchine virtuali A3, pensate per addestrare ed eseguire grandi modelli e applicazioni di IA.

TPU v5e

Google definisce la TPU v5e come l'unità cloud "più efficiente, versatile e scalabile a oggi". V5e è pensata per l'addestramento e l'inferenza dei modelli su media e larga scala, ed è in grado di garantire performance di addestramento e inferenza rispettivamente fino a 2 e 2.5 volte per dollaro più elevate rispetto alla TPU v4, dimezzando i costi.

I pod con TPU v5e consentono di connettere fino a 256 chip generando una larghezza di banda aggregata di più di 400 Tb/s e 100 petaOps di performance INT8. V5e può inoltre supportare fino a 8 diverse configurazioni di macchine virtuali, permettendo ai clienti di Google Cloud di scalare l'infrastruttura facilmente in base alle loro necessità.

Le TPU v5e e v4 saranno disponibili anche su Google Kubernetes Engine per permettere alle imprese di gestire l'orchestrazione di grandi carichi di lavoro; per chi preferisce usufruire dei servizi gestiti, Google ha messo a disposizione Vertex AI per l'addestramento di framework e librerie con le TPU.

Le v5e offrono supporto nativo per framework quali JAX, Pytorch e TensorFlow, oltre all'integrazione con tool open-source come Transformers e Accelerate di Hugging Face, PyTorch Lightning e Ray.

Google ha inoltre annunciato la preview di Multislice, una tecnologia full-stack per il training su larga scala dei modelli in grado di sfruttare la potenza di migliaia di TPU v5e e v4. Con Multislice gli sviluppatori possono superare il limite dei 3072 chip nel pod per il training e scalare i carichi di lavoro usando decine di migliaia di chip interconnessi all'interno di un singolo pod.

La tecnologia di Multislice, spiega Google, è la stessa che ha permesso lo sviluppo di PaLM, ora resa disponibile ai clienti Cloud della compagnia.

A3 VM

Le nuove macchine virtuali A3 seguono le G2 annunciate lo scorso marzo, pensate per offrire soluzioni end-to-end ottimizzate per i carichi di lavoro di IA. Le A3 utilizzano 8 GPU NVIDIA H100 Tensor Core con Transformer Engine per gestire modelli da trilioni di parametri.

L'unione delle capacità del cloud Google con le GPU NVIDIA consentono di addestrare i modelli 3 volte più velocemente e offrono larghezza di banda di rete fino a 10 volte maggiore rispetto alla precedente generazione di VM.

Le VM A3 vantano inoltre due processori Intel Xeon di quarta generazione e 2TB di memoria host. Grazie alla tecnologie NVIDIA NVLink, le nuove VM offrono una larghezza di banda bisezionale tra le GPU di 3,6 TB/s.

Gli ultimi annunci di Google Cloud supportano imprese e innovatori nello sviluppo e nell'uso di modelli sempre più avanzati di intelligenza artificiale, permettendo ai consumatori di personalizzare l'infrastruttura sulla base delle singole esigenze.