image/svg+xml
Logo Tom's Hardware
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Tom's Hardware Logo
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Forum
  • Sconti & Coupon
Offerte & Coupon
Accedi a Xenforo
Immagine di Se l'IA è una bolla, questo è quello che rischiamo davvero Se l'IA è una bolla, questo è quello che rischiamo davvero...
Immagine di RTX 5070 Ti al capolinea, pesa la strategia di NVIDIA RTX 5070 Ti al capolinea, pesa la strategia di NVIDIA...

Apple svela le falle nel ragionamento delle IA

Un nuovo studio condotto da Apple mette in luce i limiti delle capacità di ragionamento matematico dei modelli linguistici di intelligenza artificiale

Advertisement

Avatar di Andrea Maiellano

a cura di Andrea Maiellano

Author @Tom's Hardware Italia

Pubblicato il 15/10/2024 alle 19:00
Quando acquisti tramite i link sul nostro sito, potremmo guadagnare una commissione di affiliazione. Scopri di più

Un nuovo studio condotto da sei ingegneri Apple mette in luce i limiti delle capacità di ragionamento matematico dei modelli linguistici di intelligenza artificiale più avanzati.

La ricerca, intitolata "GSM-Symbolic", ha rivelato che modifiche apparentemente banali ai problemi matematici standard possono portare a cali significativi nelle prestazioni di questi sistemi IA.

La fragilità evidenziata da questi nuovi risultati supporta ricerche precedenti.

Lo studio si è concentrato sul benchmark GSM8K, un set di oltre 8.000 problemi matematici di livello elementare spesso utilizzato per valutare le capacità di ragionamento complesso dei modelli linguistici.

AI Week
Codice sconto copiato!
AI Week Logo

Se l'Intelligenza Artificiale è il tuo futuro, iscriviti subito alla AI Week 2026 per approfondire tutti questi temi con gli esperti.

  1. Utilizza il codice sconto esclusivo per i lettori di Tom's Hardware:
  2. Acquista il tuo biglietto prima che sia troppo tardi!
    Iscriviti ora!

I ricercatori hanno creato una nuova versione chiamata GSM-Symbolic, modificando nomi e numeri nei problemi originali senza alterarne la difficoltà matematica intrinseca.

Testando oltre 20 modelli linguistici all'avanguardia su GSM-Symbolic, i ricercatori hanno riscontrato cali di accuratezza tra lo 0,3% e il 9,2% rispetto ai risultati su GSM8K. Inoltre, è emersa un'elevata varianza tra diverse esecuzioni del test, con differenze di accuratezza fino al 15% per lo stesso modello.

Questi risultati suggeriscono che i modelli non stanno effettuando un vero ragionamento formale, ma piuttosto cercando di replicare pattern simili visti nei dati di addestramento.

Come affermano i ricercatori: "Gli attuali modelli linguistici di grandi dimensioni non sono capaci di un genuino ragionamento logico. Invece, tentano di replicare i passaggi di ragionamento osservati nei loro dati di addestramento."

La situazione peggiora ulteriormente quando i ricercatori hanno aggiunto informazioni irrilevanti ai problemi, creando il benchmark "GSM-NoOp". Questo ha portato a cali "catastrofici" nelle prestazioni, con riduzioni di accuratezza tra il 17,5% e il 65,7%.

Questi risultati evidenziano i limiti intrinseci nell'utilizzo del semplice "pattern matching" per affrontare problemi di ragionamento complesso.

Immagine id 37864

Come spiega Gary Marcus, esperto di IA: "Il prossimo grande passo avanti nelle capacità dell'IA arriverà solo quando queste reti neurali potranno integrare una vera manipolazione di simboli, in cui alcune conoscenze sono rappresentate in modo veramente astratto in termini di variabili e operazioni su quelle variabili, come vediamo nell'algebra e nella programmazione tradizionale."

Lo studio mette in luce la fragilità delle attuali capacità di "ragionamento" delle IA e suggerisce che, nonostante i progressi impressionanti, siamo ancora lontani da una vera comprensione matematica e logica paragonabile a quella umana.

Questi risultati potrebbero guidare lo sviluppo futuro di sistemi di IA più robusti e affidabili per compiti che richiedono un ragionamento complesso.

Fonte dell'articolo: arstechnica.com

Le notizie più lette

#1
RTX 5070 Ti al capolinea, pesa la strategia di NVIDIA

Hardware

RTX 5070 Ti al capolinea, pesa la strategia di NVIDIA

#2
Se l'IA è una bolla, questo è quello che rischiamo davvero
7

Hardware

Se l'IA è una bolla, questo è quello che rischiamo davvero

#3
RAM DDR5, prezzi quadruplicati da settembre
2

Hardware

RAM DDR5, prezzi quadruplicati da settembre

#4
Adesso Amazon ha un cloud europeo "sovrano". Ecco cosa significa
4

Business

Adesso Amazon ha un cloud europeo "sovrano". Ecco cosa significa

#5
TV Micro LED RGB: cambia tutto o non cambia niente?
8

Hardware

TV Micro LED RGB: cambia tutto o non cambia niente?

👋 Partecipa alla discussione!

0 Commenti

⚠️ Stai commentando come Ospite . Vuoi accedere?

Invia

Per commentare come utente ospite, clicca cerchi

Cliccati: 0 /

Reset

Questa funzionalità è attualmente in beta, se trovi qualche errore segnalacelo.

Segui questa discussione

Advertisement

Ti potrebbe interessare anche

RTX 5070 Ti al capolinea, pesa la strategia di NVIDIA

Hardware

RTX 5070 Ti al capolinea, pesa la strategia di NVIDIA

Di Antonello Buzzi
Se l'IA è una bolla, questo è quello che rischiamo davvero

Hardware

Se l'IA è una bolla, questo è quello che rischiamo davvero

Di Andrea Ferrario
Un SSD così avanzato (e costoso) che nemmeno i rincari ne hanno intaccato il prezzo

Offerte e Sconti

Un SSD così avanzato (e costoso) che nemmeno i rincari ne hanno intaccato il prezzo

Di Dario De Vita
RAM DDR5, prezzi quadruplicati da settembre

Hardware

RAM DDR5, prezzi quadruplicati da settembre

Di Antonello Buzzi
TV Micro LED RGB: cambia tutto o non cambia niente?

Hardware

TV Micro LED RGB: cambia tutto o non cambia niente?

Di Andrea Ferrario

Advertisement

Advertisement

Footer
Tom's Hardware Logo

 
Contatti
  • Contattaci
  • Feed RSS
Legale
  • Chi siamo
  • Privacy
  • Cookie
  • Affiliazione Commerciale
Altri link
  • Forum
Il Network 3Labs Network Logo
  • Tom's Hardware
  • SpazioGames
  • CulturaPop
  • Data4Biz
  • TechRadar
  • SosHomeGarden
  • Aibay

Tom's Hardware - Testata giornalistica associata all'USPI Unione Stampa Periodica Italiana, registrata presso il Tribunale di Milano, nr. 285 del 9/9/2013 - Direttore: Andrea Ferrario

3LABS S.R.L. • Via Pietro Paleocapa 1 - Milano (MI) 20121
CF/P.IVA: 04146420965 - REA: MI - 1729249 - Capitale Sociale: 10.000 euro

© 2026 3Labs Srl. Tutti i diritti riservati.