Esistono numerosi metodi per intrattenere una conversazione scritta con un modello linguistico avanzato, come ChatGPT, Google Bard o MLC LLM, un chatbot locale che può essere eseguito su dispositivi mobili. L’IA sta facendo progressi da gingante nella direzione di portare la potenza dei LLM (Large Language Model) ai personaggi non giocanti (PNG) nei videogiochi. Questo consentirebbe di avere conversazioni aperte invece di interazioni predefinite.

Durante il keynote del Computex 2023, Jensen Huang, CEO di Nvidia, ha presentato ACE for Games, un servizio che permette di creare personaggi di gioco vividi tramite conversazioni in linguaggio naturale, espressioni audio-visive e funzionalità di text-to-speech/speech-to-text. Huang ha svolto una dimostrazione di gioco in cui un PNG chiamato Jin, un gestore di un ristorante di ramen, interagisce con un giocatore umano che pone domande a voce, ricevendo risposte autentiche che corrispondono alla storia del PNG.

Nella dimostrazione, il giocatore (chiamato Kai) entra nel negozio di ramen di Jin e gli chiede come sta (a voce), poi discutono dell’alto tasso di criminalità nella zona. Kai chiede se può essere d’aiuto e Jin risponde suggerendo che “se vuoi fare qualcosa, ho sentito dire che il potente signore del crimine Kumon Aoki sta causando ogni sorta di caos in città. Potrebbe essere lui la causa di questa violenza”. Kai chiede dove trovare Aoki e Jin fornisce le informazioni, dando così inizio alla ricerca da parte del giocatore.

Nvidia ACE for Games permetterà l’accesso veloce a tre componenti esistenti.

La prima, Nvidia NeMo, è un framework di intelligenza artificiale per l’addestramento e l’implementazione di LLM, che include NeMo Guardrails, progettato per prevenire conversazioni inappropriate o “non sicure” da parte dell’IA. Questo impedirà presumibilmente ai PNG di rispondere a richieste inappropriate o fuori tema da parte degli utenti. Guardrails è dotato di un sistema di sicurezza che impedirà agli utenti o a potenziali “iniettori di input” di “jailbreakare” i bot e di fargli compiere azioni dannose.

La seconda è Nvidia Riva, che rappresenta la soluzione dell’azienda per il text-to-speech/speech-to-text. Nel flusso di lavoro di ACE for Games, un giocatore pone una domanda tramite il microfono e Riva la converte in testo, che viene quindi inviato al LLM. L’LLM genera una risposta testuale che Riva trasforma in audio, consentendo all’utente di ascoltarla. Naturalmente, ci si aspetta che le risposte vengano mostrate anche come testo. È possibile provare le funzionalità di text-to-speech e speech-to-text di Nvidia Riva sul sito dell’azienda.

Come terza e ultima abbiamo Nvidia Omniverse Audio2Face, che rappresenta l’ultimo passo nel flusso di lavoro dell’ACE for Games, consentendo ai personaggi effettuare espressioni facciali coerenti con ciò che dicono. Attualmente, l’azienda offre questo prodotto in versione beta, disponibile per la prova sul loro sito.

La dimostrazione, chiamata Kairos, è stata sviluppata da Convai, una startup che si occupa di intelligenza artificiale nei videogiochi ed è parte del programma Inception di Nvidia, che mette in contatto aziende emergenti con capitali di rischio. Sul sito dell’azienda vengono presentati strumenti che consentono agli sviluppatori di creare PNG realistici con storie complesse.

L’azienda ha prodotto un video esplicativo che illustra il funzionamento e le capacità dei suoi strumenti. Nel video, si vedono i giocatori parlare con i PNG e chiedere loro di compiere azioni che coinvolgono oggetti e altri personaggi nel gioco. Ad esempio, nel video un giocatore chiede a un PNG di consegnargli una pistola che si trova su un tavolo, e il PNG esegue la richiesta. In un’altra parte del video, il giocatore chiede a un PNG soldato di sparare con un lanciarazz a un bersaglio situato in un luogo specifico. Possiamo vedere come gli strumenti di Convai rendano tutto ciò possibile.