Raddoppio delle prestazioni per le Nvidia H100, basta un aggiornamento software

Nvidia sta collaborando con partner per migliorare le GPU Tensor Core H100, raddoppiando le prestazioni grazie a TensorRT-LLM, ottimizzando il parallelismo dei task.

a cura di Valerio Porcu

Senior Editor

Pubblicato il 12/09/2023 alle 14:44

Nvidia sta collaborando con un elenco di partner tecnologici per realizzare un software che possa raddoppiare le prestazioni delle sue GPU Tensor Core H100.

L'aggiornamento open source di TensorRT-LLM uscirà nelle prossime settimane, e in teoria permette a un sistema H100 di moltiplicare per otto le prestazioni del precedente A100, quindi il doppio delle prestazioni H100 precedenti. Il test è stato effettuato sul GPT-J 6B, un modello utilizzato per riassumere articoli presi da famosi siti web.

Ti potrebbe interessare anche

Guarda su

Sicuramente è una notizia eccellente per tutte le aziende, grandi e piccole, che si occupano di sviluppare sistemi IA e che lo fanno affidandosi all’hardware Nvidia. L’aumento delle prestazioni è calcolato su task molto specifici, ma è lecito supporre che porti miglioramenti anche in altri ambiti LLM, visto e considerato che il nuovo software, soprattutto, ottimizza il parallelismo tra i task.

Nvidia e i suoi partner hanno integrato TensorRT-LLM con una tecnica di pianificazione più potente, chiamata in-flight batching. Questa tecnica sfrutta il fatto che la generazione del testo può essere suddivisa in più sottoattività.

In parole povere, invece di aspettare che un intero batch di attività da una richiesta finisca prima di passare alla richiesta successiva, il sistema può continuare a elaborare nuovi batch da richieste diverse in parallelo. TensorRT-LLM comprende un compilatore di deep learning TensorRT e include kernel ottimizzati, fasi di pre-elaborazione e post-elaborazione, nonché primitive di comunicazione multi-GPU e multi-nodo.

TensorRT-LLM include anche versioni completamente ottimizzate e pronte per l'esecuzione dei più diffusi LLM, tra cui Llama 2, GPT-2 e GPT-3, oltre a Falcon, Mosaic MPT, BLOOM e decine di altri. È possibile accedere a queste versioni tramite un'API Python.

L'aggiornamento è disponibile in accesso anticipato e sarà presto integrato nel framework Nvidia NeMo, che fa parte di Nvidia AI Enterprise. I ricercatori possono accedervi attraverso il framework NeMo, il portale NGC o il repository sorgente su GitHub.

Leggi altri articoli

Articolo 1 di 5

Italia si candida per la realizzazione di una gigafactory IA

Italia candidata per ospitare l'Agenzia Europea per l'IA. Urso: "Governo indica via per leadership". Nasce AI Hub per 500mila startup africane.

Leggi questo articolo

Articolo 2 di 5

Quel 9% di profitto che la tua azienda perde in silenzio (e come smettere di perderlo)

Le interruzioni dei sistemi IT costano alle aziende il 9% dei profitti. Nuove architetture ad alta affidabilità eliminano i punti di guasto, recuperando operatività.

Leggi questo articolo

Articolo 3 di 5

10 strumenti AI per inventarsi un lavoro full-time

Scopri 10 strumenti IA rivoluzionari che possono sostituire il tuo lavoro tradizionale nel 2025. Dalla creazione di negozi online all'editing video.

Leggi questo articolo

Articolo 4 di 5

Dati e gestione documentale, così l'IA diventa davvero utile per le aziende

Slancio alle soluzioni di Enterprise Content and Business Process Management verticalizzato grazie al lavoro di Archiva Group

Leggi questo articolo

Articolo 5 di 5

Il SOC del passato è morto, la security vira sull'IA

La nuova frontiera è rappresentata dall'Agentic AI, che emula il ragionamento degli analisti esperti

Leggi questo articolo