Le GPU più potenti di NVIDIA stanno manifestando un comportamento anomalo che le rende completamente inutilizzabili dopo alcuni giorni di utilizzo in ambienti virtualizzati. La scoperta di questo difetto sta generando preoccupazioni tra i fornitori di servizi cloud e gli sviluppatori che dipendono da queste tecnologie per i loro progetti più critici.
Un bug che paralizza le macchine virtuali
CloudRift, una piattaforma specializzata nel fornire servizi GPU cloud per sviluppatori, ha per prima segnalato questo comportamento critico. Dopo alcuni giorni di utilizzo intensivo in ambiente VM, le GeForce RTX 5090 e le RTX PRO 6000 smettono completamente di rispondere ai comandi del sistema. Il problema si manifesta in modo tanto grave da richiedere il riavvio completo dell'intero nodo host per ripristinare il funzionamento.
La peculiarità di questo malfunzionamento risiede nella sua selettività: mentre le GPU di generazione precedente come le RTX 4090, le Hopper H100 e persino le Blackwell B200 continuano a funzionare senza problemi, solo questi due modelli specifici della nuova architettura Blackwell sembrano essere affetti dal difetto.
Il meccanismo tecnico del problema
L'analisi tecnica rivela che il malfunzionamento si verifica quando la GPU viene assegnata a un ambiente di macchina virtuale utilizzando il driver VFIO. Dopo il processo di Function Level Reset (FLR), la scheda grafica entra in uno stato di completa non responsività. Questo comportamento innesca quello che gli esperti definiscono un "soft lock" del kernel, creando una situazione di deadlock che coinvolge sia l'ambiente host che quello client.
Per CloudRift, questo rappresenta una sfida operativa significativa, considerando il volume elevato delle macchine virtuali che gestiscono quotidianamente. Ogni episodio di blocco richiede un riavvio completo del sistema host, causando interruzioni di servizio per tutti i clienti collegati a quella specifica infrastruttura.
Una problematica diffusa nel settore
La conferma che il problema non sia isolato arriva dalla comunità Proxmox, dove un utente ha documentato un crash completo del sistema host dopo aver spento un client Windows virtualizzato. Questa testimonianza aggiuntiva ha contribuito a definire meglio i contorni del difetto, evidenziando come non si tratti di un caso isolato legato a una specifica configurazione hardware o software.
Secondo le informazioni raccolte dalla comunità, NVIDIA avrebbe già riconosciuto ufficialmente l'esistenza del problema. L'azienda di Santa Clara sarebbe riuscita a riprodurre il comportamento anomalo nei propri laboratori e starebbe attualmente sviluppando una correzione. Tuttavia, non è ancora disponibile una comunicazione ufficiale che confermi tempi e modalità di rilascio della patch risolutiva.
L'impatto sui carichi di lavoro di intelligenza artificiale
La gravità della situazione è testimoniata dalla decisione di CloudRift di mettere in palio una ricompensa di 1.000 dollari per chiunque riesca a trovare una soluzione o una mitigazione efficace al problema. Questa iniziativa sottolinea quanto il malfunzionamento stia impattando negativamente sui carichi di lavoro di intelligenza artificiale più critici, settore in cui queste GPU rappresentano componenti fondamentali per lo sviluppo e l'addestramento di modelli avanzati.
L'industria del cloud computing specializzata nell'IA si trova quindi in una situazione di attesa, sperando che NVIDIA rilasci rapidamente una correzione che possa ripristinare la piena operatività di questi componenti hardware dal valore di migliaia di euro ciascuno. Nel frattempo, molti fornitori di servizi stanno valutando strategie alternative per garantire continuità operativa ai propri clienti.