La strada verso l'automazione intelligente potrebbe passare attraverso gli occhi degli esseri umani. Un gruppo di ricercatori guidato da Nvidia ha sviluppato un sistema che permette ai robot di apprendere le leggi della fisica e l'interazione con gli oggetti semplicemente osservando decine di migliaia di ore di video registrati da persone comuni durante le loro attività quotidiane. Si tratta di un approccio radicalmente diverso rispetto ai metodi tradizionali, che richiedono dimostrazioni specifiche per ogni singolo movimento robotico.
Il progetto, battezzato DreamDojo, si basa su un archivio monumentale di 44.000 ore di riprese in soggettiva, raccolte nel dataset DreamDojo-HV. Per comprendere la portata di questa raccolta dati, basti pensare che supera di 15 volte la durata, 96 volte il numero di abilità e addirittura 2.000 volte la varietà di scenari rispetto al più grande dataset precedentemente utilizzato per addestrare modelli robotici. Questa mole di materiale rappresenta la più vasta biblioteca mai assemblata per insegnare alle macchine come funziona il mondo fisico.
Il funzionamento del sistema si articola in due fasi distinte che richiamano il processo di apprendimento umano. Nella prima fase, l'intelligenza artificiale studia i video umani per costruire una comprensione generale delle leggi fisiche e delle interazioni tra oggetti, utilizzando quello che i ricercatori definiscono "pre-addestramento con azioni latenti". Successivamente, nella seconda fase, questa conoscenza astratta viene calibrata sulle caratteristiche specifiche del robot che dovrà operare concretamente, attraverso un processo di perfezionamento con azioni robotiche continue.
Questo metodo risolve uno dei problemi più costosi dell'industria robotica contemporanea. Tradizionalmente, insegnare a un robot umanoide a manipolare oggetti in ambienti non strutturati richiedeva mesi di dimostrazioni fisiche specifiche per quella particolare macchina, con costi proibitivi in termini di tempo e risorse. Ora, sfruttando materiale video già esistente, i robot possono acquisire competenze generali prima ancora di essere attivati fisicamente.
Dal punto di vista tecnico, uno degli aspetti più rilevanti riguarda la velocità di elaborazione. Attraverso un processo di distillazione, il team di ricerca è riuscito a raggiungere interazioni in tempo reale a 10 fotogrammi al secondo per oltre un minuto consecutivo. Questa capacità apre scenari pratici come il telecontrollo dal vivo e la pianificazione dinamica delle azioni. Il sistema è stato testato con successo su diverse piattaforme robotiche, inclusi i modelli umanoidi GR-1, G1, AgiBot e YAM, dimostrando versatilità attraverso una vasta gamma di ambienti e tipologie di interazione.
Il tempismo del rilascio non è casuale e si inserisce in una strategia più ampia di Nvidia nel settore della robotica. Durante il World Economic Forum di Davos del mese scorso, l'amministratore delegato Jensen Huang ha definito la robotica basata sull'intelligenza artificiale un'opportunità che si presenta "una volta in una generazione", particolarmente promettente per le regioni con solide basi manifatturiere. Secondo quanto riportato da Digitimes, Huang ha inoltre affermato che il prossimo decennio rappresenterà "un periodo critico di sviluppo accelerato per la tecnologia robotica".
I numeri finanziari confermano questa visione strategica. In un'intervista a CNBC dello scorso 6 febbraio, Huang ha sostenuto che le spese in conto capitale dell'industria tecnologica, potenzialmente destinate a raggiungere i 660 miliardi di dollari quest'anno da parte dei principali operatori cloud, sono "giustificate, appropriate e sostenibili". Il CEO di Nvidia ha descritto il momento attuale come "la più grande costruzione infrastrutturale della storia umana", con colossi come Meta, Amazon, Google e Microsoft che stanno aumentando drasticamente gli investimenti nell'intelligenza artificiale.
Questa ondata di investimenti sta già ridisegnando il panorama della robotica industriale. Le startup del settore hanno raccolto la cifra record di 26,5 miliardi di dollari nel 2025, secondo i dati di Dealroom. Giganti industriali europei come Siemens, Mercedes-Benz e Volvo hanno annunciato partnership robotiche nell'ultimo anno, mentre Elon Musk ha dichiarato che l'80 per cento del valore futuro di Tesla deriverà dai suoi robot umanoidi Optimus.
Per chi deve valutare l'implementazione di robot umanoidi in contesti aziendali, il valore più immediato di DreamDojo risiede nelle sue capacità di simulazione. I ricercatori evidenziano applicazioni pratiche come la valutazione affidabile delle prestazioni senza necessità di test nel mondo reale e la pianificazione basata su modelli per miglioramenti in fase di collaudo. Questo significa che le aziende potrebbero simulare estensivamente il comportamento robotico prima di impegnarsi in costose sperimentazioni fisiche.
Il divario tra dimostrazioni di laboratorio e applicazioni industriali concrete rimane infatti significativo. Un robot che funziona perfettamente in condizioni controllate spesso fatica a gestire le imprevedibili variazioni degli ambienti reali: illuminazione diversa, oggetti sconosciuti, ostacoli inaspettati. Addestrando l'intelligenza artificiale su 44.000 ore di video umani diversificati, che coprono migliaia di scenari e quasi 100 abilità distinte, DreamDojo punta a costruire quella intuizione fisica generale che rende i robot adattabili invece che rigidi.
Il team di ricerca, coordinato da Linxi "Jim" Fan, Joel Jang e Yuke Zhu, con Shenyuan Gao e William Liang come primi coautori, ha annunciato che il codice sarà rilasciato pubblicamente, sebbene non sia stata specificata una tempistica precisa. Il progetto ha coinvolto collaboratori provenienti da UC Berkeley, Stanford, l'Università del Texas ad Austin e diverse altre istituzioni accademiche.
La pubblicazione della ricerca in questo mese segna un punto di svolta per quella che il team definisce "il primo modello mondiale robotico di questo tipo che dimostra una forte generalizzazione a oggetti e ambienti diversi dopo il post-addestramento". Resta da verificare se DreamDojo si tradurrà in prodotti robotici commerciali concreti, ma la ricerca indica chiaramente la direzione delle ambizioni di Nvidia mentre l'azienda si posiziona sempre più oltre le sue radici nel settore videoludico.
Come osservato da Kyle Barr su Gizmodo all'inizio di questo mese, Nvidia considera ormai "tutto ciò che riguarda il gaming e il personal computer" come "anomalie nei fogli di calcolo trimestrali dell'azienda". Il cambiamento riflette una scommessa calcolata: che il futuro dell'informatica sia fisico, non solo digitale. Nvidia ha già investito 10 miliardi di dollari in Anthropic e segnalato l'intenzione di investire massicciamente nel prossimo round di finanziamento di OpenAI. DreamDojo suggerisce che l'azienda consideri i robot umanoidi come la prossima frontiera dove la sua competenza nell'intelligenza artificiale e il dominio nel settore dei chip possono convergere in modo sinergico.