image/svg+xml
Logo Tom's Hardware
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Tom's Hardware Logo
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Forum
  • Sconti & Coupon
Offerte di Natale
Accedi a Xenforo
Immagine di Riparare una RTX 5090 costa più che comprarla nuova Riparare una RTX 5090 costa più che comprarla nuova...
Immagine di AMD Ryzen 9850X3D: spuntano i primi, sorprendenti benchmark AMD Ryzen 9850X3D: spuntano i primi, sorprendenti benchmark...

Apple svela le falle nel ragionamento delle IA

Un nuovo studio condotto da Apple mette in luce i limiti delle capacità di ragionamento matematico dei modelli linguistici di intelligenza artificiale

Advertisement

Avatar di Andrea Maiellano

a cura di Andrea Maiellano

Author @Tom's Hardware Italia

Pubblicato il 15/10/2024 alle 19:00
Quando acquisti tramite i link sul nostro sito, potremmo guadagnare una commissione di affiliazione. Scopri di più

Un nuovo studio condotto da sei ingegneri Apple mette in luce i limiti delle capacità di ragionamento matematico dei modelli linguistici di intelligenza artificiale più avanzati.

La ricerca, intitolata "GSM-Symbolic", ha rivelato che modifiche apparentemente banali ai problemi matematici standard possono portare a cali significativi nelle prestazioni di questi sistemi IA.

La fragilità evidenziata da questi nuovi risultati supporta ricerche precedenti.

Lo studio si è concentrato sul benchmark GSM8K, un set di oltre 8.000 problemi matematici di livello elementare spesso utilizzato per valutare le capacità di ragionamento complesso dei modelli linguistici.

AI Week
Codice sconto copiato!
AI Week Logo

Se l'Intelligenza Artificiale è il tuo futuro, iscriviti subito alla AI Week 2026 per approfondire tutti questi temi con gli esperti.

  1. Utilizza il codice sconto esclusivo per i lettori di Tom's Hardware:
  2. Acquista il tuo biglietto prima che sia troppo tardi!
    Iscriviti ora!

I ricercatori hanno creato una nuova versione chiamata GSM-Symbolic, modificando nomi e numeri nei problemi originali senza alterarne la difficoltà matematica intrinseca.

Testando oltre 20 modelli linguistici all'avanguardia su GSM-Symbolic, i ricercatori hanno riscontrato cali di accuratezza tra lo 0,3% e il 9,2% rispetto ai risultati su GSM8K. Inoltre, è emersa un'elevata varianza tra diverse esecuzioni del test, con differenze di accuratezza fino al 15% per lo stesso modello.

Questi risultati suggeriscono che i modelli non stanno effettuando un vero ragionamento formale, ma piuttosto cercando di replicare pattern simili visti nei dati di addestramento.

Come affermano i ricercatori: "Gli attuali modelli linguistici di grandi dimensioni non sono capaci di un genuino ragionamento logico. Invece, tentano di replicare i passaggi di ragionamento osservati nei loro dati di addestramento."

La situazione peggiora ulteriormente quando i ricercatori hanno aggiunto informazioni irrilevanti ai problemi, creando il benchmark "GSM-NoOp". Questo ha portato a cali "catastrofici" nelle prestazioni, con riduzioni di accuratezza tra il 17,5% e il 65,7%.

Questi risultati evidenziano i limiti intrinseci nell'utilizzo del semplice "pattern matching" per affrontare problemi di ragionamento complesso.

Immagine id 37864

Come spiega Gary Marcus, esperto di IA: "Il prossimo grande passo avanti nelle capacità dell'IA arriverà solo quando queste reti neurali potranno integrare una vera manipolazione di simboli, in cui alcune conoscenze sono rappresentate in modo veramente astratto in termini di variabili e operazioni su quelle variabili, come vediamo nell'algebra e nella programmazione tradizionale."

Lo studio mette in luce la fragilità delle attuali capacità di "ragionamento" delle IA e suggerisce che, nonostante i progressi impressionanti, siamo ancora lontani da una vera comprensione matematica e logica paragonabile a quella umana.

Questi risultati potrebbero guidare lo sviluppo futuro di sistemi di IA più robusti e affidabili per compiti che richiedono un ragionamento complesso.

Fonte dell'articolo: arstechnica.com

👋 Partecipa alla discussione! Scopri le ultime novità che abbiamo riservato per te!

0 Commenti

⚠️ Stai commentando come Ospite . Vuoi accedere?

Invia

Per commentare come utente ospite, clicca quadrati

Cliccati: 0 /

Reset

Questa funzionalità è attualmente in beta, se trovi qualche errore segnalacelo.

Segui questa discussione

Advertisement

Ti potrebbe interessare anche

AMD Ryzen 9850X3D: spuntano i primi, sorprendenti benchmark

Hardware

AMD Ryzen 9850X3D: spuntano i primi, sorprendenti benchmark

Di Andrea Maiellano
Riparare una RTX 5090 costa più che comprarla nuova
3

Hardware

Riparare una RTX 5090 costa più che comprarla nuova

Di Andrea Maiellano
Aspetti Gemini su Google Home? Controlla le tue notifiche
1

Hardware

Aspetti Gemini su Google Home? Controlla le tue notifiche

Di Andrea Maiellano
Meta continua la sua corsa all'IA acquisendo una nuova startup

Hardware

Meta continua la sua corsa all'IA acquisendo una nuova startup

Di Andrea Maiellano
Continua la "fuga da Apple", un'altra figura storica vuole lasciare
1

Hardware

Continua la "fuga da Apple", un'altra figura storica vuole lasciare

Di Andrea Maiellano

Advertisement

Advertisement

Footer
Tom's Hardware Logo

 
Contatti
  • Contattaci
  • Feed RSS
Legale
  • Chi siamo
  • Privacy
  • Cookie
  • Affiliazione Commerciale
Altri link
  • Forum
Il Network 3Labs Network Logo
  • Tom's Hardware
  • SpazioGames
  • CulturaPop
  • Data4Biz
  • TechRadar
  • SosHomeGarden
  • Aibay

Tom's Hardware - Testata giornalistica associata all'USPI Unione Stampa Periodica Italiana, registrata presso il Tribunale di Milano, nr. 285 del 9/9/2013 - Direttore: Andrea Ferrario

3LABS S.R.L. • Via Pietro Paleocapa 1 - Milano (MI) 20121
CF/P.IVA: 04146420965 - REA: MI - 1729249 - Capitale Sociale: 10.000 euro

© 2025 3Labs Srl. Tutti i diritti riservati.