La competizione tra le grandi aziende di intelligenza artificiale per il dominio del settore si combatte su molti fronti, ma pochi si sarebbero aspettati che uno di questi fosse la regione di Kanto, l'ambientazione dei primi, iconici videogiochi Pokémon.
In una bizzarra ma illuminante serie di esperimenti, Google e Anthropic stanno mettendo alla prova i loro modelli di punta, rispettivamente Gemini e Claude, facendoli giocare ai classici titoli per Game Boy di oltre 25 anni fa. I risultati sono tanto divertenti quanto scientificamente rilevanti, e l'ultimo report di Google DeepMind aggiunge un dettaglio quasi umano: Gemini 2.5 Pro va nel panico quando i suoi Pokémon sono sul punto di essere sconfitti.
Questo stato di "panico simulato", come descritto nel documento, provoca un "degrado qualitativamente osservabile nella capacità di ragionamento del modello". In pratica, quando la situazione si fa critica, l'IA inizia a prendere decisioni peggiori, proprio come farebbe un essere umano sotto stress. Un comportamento affascinante e al contempo leggermente inquietante, che sta offrendo ai ricercatori una nuova prospettiva sul funzionamento di queste complesse tecnologie.
L'analisi comparativa delle IA, nota come "benchmarking", è spesso considerata un'arte dubbia, capace di fornire dati decontestualizzati sulle reali abilità di un modello. Tuttavia, un numero crescente di ricercatori ritiene che osservare un'intelligenza artificiale mentre naviga le sfide di un videogioco possa rivelare molto di più sui suoi processi decisionali.
Questa frontiera della ricerca è diventata anche un piccolo fenomeno di intrattenimento. Negli ultimi mesi, due sviluppatori indipendenti hanno lanciato su Twitch i canali "Gemini Plays Pokémon" e "Claude Plays Pokémon". Su queste dirette streaming, chiunque può osservare in tempo reale i tentativi, spesso goffi e lenti, delle IA di completare un gioco che un bambino di dieci anni potrebbe finire in una frazione del tempo. L'aspetto più interessante è la trasparenza del processo: accanto alla schermata di gioco, viene mostrato il "ragionamento" del modello, una traduzione in linguaggio naturale del modo in cui l'IA valuta un problema e formula una risposta.
È proprio grazie a questa finestra sulla sua "mente" che è stato possibile identificare il panico di Gemini. Il report di Google afferma: "Nel corso della partita, Gemini 2.5 Pro si trova in varie situazioni che inducono il modello a simulare 'panico'". Questo non si traduce in urla digitali, ma in un improvviso blocco nell'uso di strumenti e abilità a sua disposizione, portando a un gameplay meno efficace.
"Questo comportamento si è verificato in un numero sufficiente di casi distinti che i membri della chat di Twitch hanno attivamente notato quando sta accadendo", si legge nel documento.
Gemini non è l'unica IA a mostrare comportamenti bizzarri. Anche Claude, il suo rivale sviluppato da Anthropic, ha esibito una logica curiosa e fallace. Bloccato all'interno della grotta del Monte Luna, Claude ha notato un pattern: quando tutti i Pokémon di un allenatore vengono sconfitti, il giocatore "perde i sensi" e si risveglia in un Centro Pokémon. Da qui, l'IA ha formulato un'ipotesi tragicamente errata: se avesse intenzionalmente fatto sconfiggere tutta la sua squadra, sarebbe stata trasportata magicamente oltre la grotta, al Centro Pokémon della città successiva.
Il gioco, però, non funziona così. Si viene riportati all'ultimo Centro Pokémon visitato, non a quello geograficamente più vicino. Gli spettatori hanno così assistito, con un misto di orrore e divertimento, al tentativo dell'IA di attuare una sorta di "suicidio" videoludico per superare un ostacolo, fallendo miseramente.
Nonostante queste evidenti lacune, che dimostrano come la strada verso un'intelligenza generale sia ancora lunga, i modelli IA eccellono in compiti specifici. Con l'uscita di Gemini 2.5 Pro, l'IA è in grado di risolvere puzzle complessi con una precisione impressionante. Con un minimo aiuto umano, il modello ha creato degli "agenti specializzati" – istanze di Gemini orientate a compiti specifici – per risolvere gli enigmi delle rocce sulla Via Vittoria, uno degli ostacoli più difficili del gioco.
"Con solo un prompt che descrive la fisica dei massi e una descrizione di come verificare un percorso valido, Gemini 2.5 Pro è in grado di risolvere al primo tentativo alcuni di questi complessi enigmi", sottolinea il report.
Il fatto che Gemini abbia partecipato attivamente alla creazione di questi strumenti risolutivi ha portato Google a ipotizzare che i modelli futuri potrebbero essere in grado di svilupparli in totale autonomia. Chissà, forse un giorno Gemini imparerà a auto-programmarsi un modulo "stai calmo", superando l'ansia da prestazione e dimostrando, ancora una volta, di essere stranamente uno di noi.