Gemini finisce Pokémon Blu con un piccolo aiuto umano

Il modello AI più costoso di Google avrebbe superato un traguardo storico: battere il celebre videogioco di Gamefreak prima della IA di Anthropic.

Avatar di Andrea Maiellano

a cura di Andrea Maiellano

Author

Il modello di IA premium di Google ha compiuto un'impresa che potrebbe sembrare banale agli occhi dei videogiocatori, ma che rappresenta un significativo passo avanti nel campo dell'IA: completare Pokémon Blu, il celebre videogioco lanciato ben 29 anni fa. L'annuncio è arrivato direttamente dal CEO di Google, Sundar Pichai, che ha celebrato il traguardo sui social media con entusiasmo, evidenziando come Gemini 2.5 Pro abbia portato a termine l'avventura nel mondo dei mostri tascabili di Nintendo.

La maratona videoludica, trasmessa in streaming sulla piattaforma Twitch con il nome "Gemini Plays Pokemon", non è stata organizzata direttamente da Google, ma da Joel Z, un ingegnere informatico trentenne che ha chiarito di non avere affiliazioni ufficiali con l'azienda di Mountain View. Nonostante questa precisazione, i dirigenti di Google hanno seguito con interesse l'esperimento, trasformandolo in un'opportunità per mostrare le capacità del loro modello di punta.

Logan Kilpatrick, product lead di Google AI Studio, aveva già anticipato il mese scorso i progressi di Gemini nel gioco, sottolineando come avesse "guadagnato la quinta medaglia", superando i risultati ottenuti dai modelli concorrenti. Lo stesso Pichai aveva commentato scherzosamente l'impresa facendo riferimento a una ipotetica "API, Artificial Pokémon Intelligence".

La scelta di Pokémon come banco di prova non è casuale. A febbraio, Anthropic aveva messo in evidenza i progressi del suo modello Claude su "Pokémon Rosso", sottolineando come le capacità di "pensiero esteso e formazione degli agenti" conferissero al sistema un "vantaggio significativo" in compiti inaspettati come giocare a un titolo classico. La sfida si è così trasformata in una sorta di competizione non ufficiale tra i due modelli di IA più avanzati.

Entrambi i titoli citati, "Pokémon Rosso" e "Pokémon Blu", sono versioni diverse dello stesso gioco pubblicato originariamente nel 1996 per Game Boy, che ha dato il via all'iconico franchise dei mostriciattoli collezionabili. Il canale Twitch dedicato a "Claude Plays Pokemon" è stato citato dallo stesso Joel Z come fonte di ispirazione per il suo progetto.

Sebbene Gemini sembri aver vinto questa competizione informale completando il gioco prima di Claude, lo stesso Joel Z ha invitato alla cautela: "Non considerate questo un benchmark per valutare quanto bene un modello linguistico possa giocare a Pokémon. Non si possono fare confronti diretti, poiché Gemini e Claude utilizzano strumenti diversi e ricevono informazioni differenti".

È importante notare che entrambi i modelli necessitano di supporto per giocare. Questi "agent harnesses" forniscono alle IA screenshot di gioco arricchiti con informazioni aggiuntive, permettendo al modello di decidere come rispondere e di premere i pulsanti corrispondenti alle istruzioni generate. Un sistema complesso che traduce le capacità cognitive dell'IA in azioni concrete all'interno del videogioco.

Joel Z ha ammesso di aver effettuato alcuni "interventi di sviluppo" per aiutare Gemini a completare il gioco, ma ha insistito sul fatto che questo non costituisce un imbroglio. "I miei interventi migliorano le capacità generali di ragionamento e decisione di Gemini", ha spiegato. "Non fornisco suggerimenti specifici - non ci sono guide o istruzioni dirette per sfide particolari come Monte Luna. L'unica cosa che si avvicina a un aiuto è stato far sapere a Gemini che doveva parlare due volte con una Recluta del Team Rocket per ottenere la Chiave dell'Ascensore, un noto bug che è stato successivamente corretto in Pokémon Giallo".

L'esperimento "Gemini Plays Pokémon" è ancora in fase di sviluppo attivo, e il framework continua ad evolversi. Questo suggerisce che potremmo vedere ulteriori miglioramenti nelle capacità del modello di affrontare compiti complessi che richiedono pianificazione a lungo termine e comprensione di sistemi di regole articolati.

👋 Partecipa alla discussione! Scopri le ultime novità che abbiamo riservato per te!

0 Commenti

⚠️ Stai commentando come Ospite. Vuoi accedere?


Questa funzionalità è attualmente in beta, se trovi qualche errore segnalacelo.