L'intelligenza artificiale si sta addentrando in territori sempre più complessi, e il mondo dei videogiochi rappresenta un banco di prova ideale per testare le capacità di agenti autonomi in grado di comprendere, pianificare e agire in ambienti virtuali complessi. Google DeepMind ha presentato SIMA 2, un sistema di intelligenza artificiale progettato per operare in videogiochi commerciali senza obiettivi predefiniti, seguendo invece istruzioni impartite dagli esseri umani. Questa nuova generazione di agenti si distingue radicalmente dai predecessori come AlphaZero o AlphaStar, che eccellevano in singoli giochi con regole precise: SIMA 2 punta invece alla flessibilità, apprendendo a navigare in mondi virtuali diversi e a collaborare con gli umani per risolvere problemi attraverso il linguaggio naturale.
Il sistema è stato addestrato analizzando filmati di giocatori umani in azione su otto videogiochi commerciali, tra cui No Man's Sky e Goat Simulator 3, oltre a tre ambienti virtuali creati appositamente dal team di ricerca. Durante l'addestramento, SIMA 2 ha imparato ad associare input di tastiera e mouse alle corrispondenti azioni nei giochi, elaborando le immagini del videogioco pixel per pixel, fotogramma dopo fotogramma. L'integrazione con Gemini, il modello linguistico di Google, consente all'agente di comunicare attraverso chat testuale, comandi vocali o persino disegni tracciati sullo schermo del gioco, permettendogli di porre domande e fornire aggiornamenti mentre esegue i compiti assegnati.
Joe Marino, ricercatore presso Google DeepMind, ha sottolineato durante una conferenza stampa come anche azioni apparentemente semplici nei videogiochi nascondano una complessità notevole: accendere una lanterna in un gioco può richiedere una sequenza articolata di passaggi intermedi che l'agente deve identificare e completare autonomamente. Questa capacità di scomporre obiettivi complessi in sotto-task gestibili rappresenta, secondo i ricercatori, un elemento fondamentale per lo sviluppo futuro di robot autonomi nel mondo reale. Le competenze acquisite da SIMA 2 nella navigazione degli ambienti, nell'uso di strumenti virtuali e nella collaborazione con gli esseri umani costituirebbero i mattoni essenziali per i futuri assistenti robotici.
Per valutare la generalizzazione delle capacità apprese, il team ha sottoposto SIMA 2 a test in ambienti completamente nuovi. In una serie di esperimenti, i ricercatori hanno utilizzato Genie 3, l'ultima versione del modello generativo di mondi virtuali dell'azienda, per creare ambienti inediti nei quali inserire l'agente. I risultati mostrano che SIMA 2 riesce a orientarsi e a seguire istruzioni anche in questi contesti mai visti prima. Quando l'agente falliva un compito, Gemini generava suggerimenti che SIMA 2 integrava nei tentativi successivi, migliorando attraverso prove ripetute fino al successo. Questo meccanismo di apprendimento per tentativi ed errori rappresenta un'evoluzione significativa rispetto ai sistemi precedenti, che eccellevano in singoli giochi ma faticavano a trasferire le competenze acquisite.
Nonostante i progressi, SIMA 2 rimane un prototipo sperimentale con limitazioni rilevanti. L'agente incontra difficoltà con compiti che richiedono sequenze di azioni articolate e tempi di completamento prolungati. Per garantire reattività immediata, il team ha dovuto ridurre drasticamente la memoria a lungo termine del sistema, limitando il ricordo alle sole interazioni più recenti. Inoltre, le prestazioni nell'uso di mouse e tastiera restano significativamente inferiori rispetto a quelle di un giocatore umano medio, evidenziando un divario ancora consistente nelle abilità motorie virtuali.
La comunità scientifica mantiene un atteggiamento cauto ma interessato. Julian Togelius, ricercatore di intelligenza artificiale presso la New York University specializzato in creatività e videogiochi, riconosce l'interesse del risultato, sottolineando come tentativi precedenti di addestrare un singolo sistema a giocare a più titoli abbiano incontrato difficoltà considerevoli. Togelius fa specifico riferimento a GATO, un precedente sistema di Google DeepMind che, nonostante l'entusiasmo iniziale, non riuscì a trasferire efficacemente le competenze attraverso un numero significativo di ambienti virtuali. Controllare videogiochi in tempo reale basandosi esclusivamente sull'input visivo rappresenta, nelle sue parole, una "modalità difficile" per qualsiasi sistema di apprendimento automatico.
Sulla possibilità che SIMA 2 possa effettivamente contribuire allo sviluppo di robot più capaci, Togelius mantiene una posizione aperta ma prudente. Il mondo reale presenta sfide simultaneamente più difficili e più semplici rispetto ai videogiochi: più difficili perché non è possibile "premere un tasto A" per aprire una porta fisica, più semplici perché un robot conosce con precisione i limiti e le capacità del proprio corpo in ogni momento, al contrario di quanto avviene nei mondi virtuali dove le regole cambiano da gioco a gioco. Matthew Guzdial, ricercatore di intelligenza artificiale presso l'Università di Alberta, esprime maggiore scetticismo, osservando che la maggior parte dei videogiochi condivide controlli di tastiera e mouse molto simili: impararne uno significa sostanzialmente impararli tutti. Guzdial dubita che SIMA 2 potrebbe mantenere prestazioni accettabili con giochi che utilizzano schemi di input non convenzionali.
La questione del trasferimento delle competenze dalla simulazione alla realtà resta centrale nel dibattito. Guzdial sottolinea come interpretare le informazioni visive provenienti da telecamere nel mondo reale sia significativamente più complesso rispetto all'analisi di ambienti videoludici, progettati intenzionalmente per essere visivamente comprensibili ai giocatori umani. Questa differenza fondamentale nella natura degli input percettivi potrebbe limitare l'applicabilità diretta delle strategie apprese da SIMA 2 in contesti robotici reali.
Nonostante le sfide evidenti, il team di Google DeepMind intende proseguire lo sviluppo integrando più strettamente SIMA 2 con Genie 3, creando una sorta di "dojo virtuale infinito" nel quale l'agente possa allenarsi continuamente. In questo scenario, Genie genererebbe mondi sempre nuovi nei quali SIMA può apprendere attraverso prove ed errori guidate dal feedback di Gemini, accelerando potenzialmente il processo di acquisizione di competenze trasferibili. Come ha dichiarato Marino nella conferenza stampa, il team ritiene di aver "appena scalfito la superficie di ciò che è possibile", indicando prospettive di sviluppo ancora ampiamente inesplorate per questa classe di agenti autonomi che potrebbero, in futuro, rappresentare un ponte tra l'intelligenza artificiale videoludica e quella robotica applicata al mondo fisico.