image/svg+xml
Logo Tom's Hardware
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Tom's Hardware Logo
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Forum
  • Sconti & Coupon
Offerte & Coupon
Accedi a Xenforo
Immagine di Crisi RAM: quali aziende rischiano la chiusura? Crisi RAM: quali aziende rischiano la chiusura?...
Immagine di Windows 11, arriva lo speedtest direttamente dalla taskbar Windows 11, arriva lo speedtest direttamente dalla taskbar...

Pokémon Rosso usato come benchmark per un modello IA (ed è pure bravo)

Pokémon in veste di tester: Anthropic utilizza i mostriciattoli tascabili per valutare le prestazioni del suo nuovo modello IA Claude 3.7 Sonnet.

Advertisement

Avatar di Giulia Serena

a cura di Giulia Serena

Editor @Tom's Hardware Italia

Pubblicato il 25/02/2025 alle 15:05
Quando acquisti tramite i link sul nostro sito, potremmo guadagnare una commissione di affiliazione. Scopri di più

L'azienda di intelligenza artificiale Anthropic ha testato il suo ultimo modello AI, Claude 3.7 Sonnet, sul videogioco classico Pokémon Rosso per Game Boy. Il test è stato annunciato in un post sul blog dell'azienda pubblicato lunedì.

Anthropic ha dotato il modello di memoria di base, input dei pixel dello schermo e funzioni per premere i pulsanti e navigare nel gioco, permettendogli di giocare a Pokémon in modo continuativo. Una caratteristica unica di Claude 3.7 Sonnet è la sua capacità di "pensiero esteso", che gli consente di ragionare su problemi complessi applicando più potenza di calcolo e impiegando più tempo.

AI Week
Codice sconto copiato!
AI Week Logo

Se l'Intelligenza Artificiale è il tuo futuro, iscriviti subito alla AI Week 2026 per approfondire tutti questi temi con gli esperti.

  1. Utilizza il codice sconto esclusivo per i lettori di Tom's Hardware:
  2. Acquista il tuo biglietto prima che sia troppo tardi!
    Iscriviti ora!

Questa capacità si è rivelata utile in Pokémon Rosso. Mentre una versione precedente del modello, Claude 3.0 Sonnet, non era riuscita nemmeno a lasciare la casa iniziale del gioco, Claude 3.7 Sonnet è riuscito a sconfiggere tre capipalestra e ottenere le relative medaglie. Insomma, mica male per un'intelligenza artificiale.

Immagine id 50074
Crediti: Anthropic (https://www.anthropic.com/news/claude-3-7-sonnet)

Anthropic non ha specificato quante risorse di calcolo siano state necessarie per raggiungere questi traguardi, né quanto tempo abbia impiegato il modello. L'azienda ha solo dichiarato che sono state eseguite 35.000 azioni per arrivare all'ultimo capopalestra affrontato.

Sebbene Pokémon Rosso possa sembrare un test poco significativo per noi esseri umani, in realtà c'è una lunga tradizione nell'uso dei videogiochi come benchmark per l'intelligenza artificiale. Negli ultimi mesi sono emerse diverse nuove applicazioni e piattaforme per testare le capacità di gioco dei modelli AI su titoli che vanno da Street Fighter a Pictionary. Questi test permettono di valutare in modo pratico e misurabile le capacità di ragionamento, pianificazione e decision-making dei sistemi di intelligenza artificiale in ambienti interattivi complessi.

Fonte dell'articolo: techcrunch.com

Le notizie più lette

#1
Non ve ne siete accorti, ma con OpenClaw OpenAI ha appena ucciso ChatGpt
3

Business

Non ve ne siete accorti, ma con OpenClaw OpenAI ha appena ucciso ChatGpt

#2
Onde marine, il giroscopio cambia le regole

Scienze

Onde marine, il giroscopio cambia le regole

#3
L'intelligenza artificiale non aumenta la produttività e l'entusiasmo delle aziende si raffredda
2

Business

L'intelligenza artificiale non aumenta la produttività e l'entusiasmo delle aziende si raffredda

#4
Artico, dati falsati sulla perdita di neve
1

Scienze

Artico, dati falsati sulla perdita di neve

#5
Windows 11, arriva lo speedtest direttamente dalla taskbar
7

Hardware

Windows 11, arriva lo speedtest direttamente dalla taskbar

👋 Partecipa alla discussione!

0 Commenti

⚠️ Stai commentando come Ospite . Vuoi accedere?

Invia

Per commentare come utente ospite, clicca cerchi

Cliccati: 0 /

Reset

Questa funzionalità è attualmente in beta, se trovi qualche errore segnalacelo.

Segui questa discussione

Advertisement

Ti potrebbe interessare anche

Windows 11, arriva lo speedtest direttamente dalla taskbar
7

Hardware

Windows 11, arriva lo speedtest direttamente dalla taskbar

Di Marco Pedrani
Crisi RAM: quali aziende rischiano la chiusura?
2

Hardware

Crisi RAM: quali aziende rischiano la chiusura?

Di Marco Pedrani
NVIDIA liquida Arm ma non ferma le CPU per PC

Hardware

NVIDIA liquida Arm ma non ferma le CPU per PC

Di Antonello Buzzi
AMD Ryzen 10000, sette configurazioni per accontentare tutti
7

Hardware

AMD Ryzen 10000, sette configurazioni per accontentare tutti

Di Marco Pedrani
La RX 9060 XT demolisce un record della RTX 4090

Hardware

La RX 9060 XT demolisce un record della RTX 4090

Di Marco Pedrani

Advertisement

Advertisement

Footer
Tom's Hardware Logo

 
Contatti
  • Contattaci
  • Feed RSS
Legale
  • Chi siamo
  • Privacy
  • Cookie
  • Affiliazione Commerciale
Altri link
  • Forum
Il Network 3Labs Network Logo
  • Tom's Hardware
  • SpazioGames
  • CulturaPop
  • Data4Biz
  • TechRadar
  • SosHomeGarden
  • Aibay

Tom's Hardware - Testata giornalistica associata all'USPI Unione Stampa Periodica Italiana, registrata presso il Tribunale di Milano, nr. 285 del 9/9/2013 - Direttore: Andrea Ferrario

3LABS S.R.L. • Via Pietro Paleocapa 1 - Milano (MI) 20121
CF/P.IVA: 04146420965 - REA: MI - 1729249 - Capitale Sociale: 10.000 euro

© 2026 3Labs Srl. Tutti i diritti riservati.