Raddoppio delle prestazioni per le Nvidia H100, basta un aggiornamento software

Nvidia sta collaborando con partner per migliorare le GPU Tensor Core H100, raddoppiando le prestazioni grazie a TensorRT-LLM, ottimizzando il parallelismo dei task.

Avatar di Valerio Porcu

a cura di Valerio Porcu

Senior Editor

Nvidia sta collaborando con un elenco di partner tecnologici per realizzare un software che possa raddoppiare le prestazioni delle sue GPU Tensor Core H100.

L'aggiornamento open source di TensorRT-LLM uscirà nelle prossime settimane, e in teoria permette a un sistema H100 di moltiplicare per otto le prestazioni del precedente A100, quindi il doppio delle prestazioni H100 precedenti. Il test è stato effettuato sul GPT-J 6B, un modello utilizzato per riassumere articoli presi da famosi siti web.

Sicuramente è una notizia eccellente per tutte le aziende, grandi e piccole, che si occupano di sviluppare sistemi IA e che lo fanno affidandosi all’hardware Nvidia. L’aumento delle prestazioni è calcolato su task molto specifici, ma è lecito supporre che porti miglioramenti anche in altri ambiti LLM, visto e considerato che il nuovo software, soprattutto, ottimizza il parallelismo tra i task.

Nvidia e i suoi partner hanno integrato TensorRT-LLM con una tecnica di pianificazione più potente, chiamata in-flight batching. Questa tecnica sfrutta il fatto che la generazione del testo può essere suddivisa in più sottoattività.

In parole povere, invece di aspettare che un intero batch di attività da una richiesta finisca prima di passare alla richiesta successiva, il sistema può continuare a elaborare nuovi batch da richieste diverse in parallelo. TensorRT-LLM comprende un compilatore di deep learning TensorRT e include kernel ottimizzati, fasi di pre-elaborazione e post-elaborazione, nonché primitive di comunicazione multi-GPU e multi-nodo.

TensorRT-LLM include anche versioni completamente ottimizzate e pronte per l'esecuzione dei più diffusi LLM, tra cui Llama 2, GPT-2 e GPT-3, oltre a Falcon, Mosaic MPT, BLOOM e decine di altri. È possibile accedere a queste versioni tramite un'API Python.

L'aggiornamento è disponibile in accesso anticipato e sarà presto integrato nel framework Nvidia NeMo, che fa parte di Nvidia AI Enterprise. I ricercatori possono accedervi attraverso il framework NeMo, il portale NGC o il repository sorgente su GitHub.