Google Cloud TPU, potenza bruta per allenare le reti neurali

Google ha sviluppato una TPU (Tensor Processor Unit) di seconda generazione che fonde quattro chip in grado di garantire una potenza complessiva di 180 TFLOPs per compiti di machine learning e intelligenza artificiale.

L'azienda di Mountain View l'ha chiamata "Cloud TPU" e intende renderla disponibile a tutti, integrandola in Google Cloud Compute nel corso dell'anno. Questo significa che i clienti potranno abbinare le Cloud TPU a CPU Intel, GPU Nvidia e al resto dell'infrastruttura per ottimizzare le proprie soluzioni di machine learning.

Nel machine learning ci sono due fasi: la prima è quella di "allenamento" e costruzione di un modello, mentre la seconda è quella in cui si cerca corrispondenze tra i modelli. Il primo carico di lavoro è altamente dipendente dalla potenza di calcolo, e in genere è gestito al meglio dalle GPU. La prima generazione della TPU di Google era usata per la seconda fase, e faceva inferenze per riconoscere immagini, linguaggio e altro.

Secondo Google per tale compito la prima generazione di TPU era dalle 15 alle 30 volte più veloce e dalle 30 alle 80 volte più efficiente di CPU e GPU. La nuova TPU fa però un passo avanti, ed è ottimizzata per le due fasi, ossia può essere usata sia per il training che l'inferenza.

Quando Google parla di 180 TFLOPs non è chiaro se il dato riguardi i calcoli FP16 o FP32, ma propendiamo per la prima opzione. Per riferimento (ma non confronto), Nvidia ha recentemente annunciato l'acceleratore Tesla V100, con unità Tensor Core dedicate per garantire 120 TFLOPS per compiti di machine-learning.

Fare raffronti con altre soluzioni è tutt'altro che semplice, perché le architetture create da Nvidia, AMD e altri divergono profondamente quando si tratta di machine learning. In determinati compiti può essere migliore una o l'altra, e c'è anche l'efficienza energetica da tenere presente; tra le stesse aziende ci sono vedute diverse su quale sia la soluzione migliore in uno scontro diretto.

google cloud tpu pod — Un "Google Pod" formato da Cloud TPU

Google si è limitata ad affermare che "un'operazione di training che ha richiesto un giorno intero a 32 delle migliori GPU disponibili in commercio può essere svolta in un pomeriggio usando otto Cloud TPU".

Ogni Cloud TPU ha una propria interconnessione ad alta velocità; 64 di queste schede possono essere collegate a quello che Google chiama "pod" per ottenere una potenza totale di 11,5 petaflops. Come la TPU di prima generazione, anche Cloud TPU supporta la libreria software per il machine learning TensorFlow, che Google ha reso open source due anni fa.

Tom's Consiglia

Vuoi saperne di più sull'intelligenza artificiale? Parti dalle basi!