image/svg+xml
Logo Tom's Hardware
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Tom's Hardware Logo
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Forum
  • Sconti & Coupon
Sconti & Coupon
Accedi a Xenforo
Immagine di La GPU più veloce del mondo è un'integrata Intel La GPU più veloce del mondo è un'integrata Intel...
Immagine di AMD Radeon RX 9060 XT 16GB, la migliore sotto i 400 euro | Test & Recensione AMD Radeon RX 9060 XT 16GB, la migliore sotto i 400 euro | T...

Apple svela le falle nel ragionamento delle IA

Un nuovo studio condotto da Apple mette in luce i limiti delle capacità di ragionamento matematico dei modelli linguistici di intelligenza artificiale

Advertisement

Quando acquisti tramite i link sul nostro sito, potremmo guadagnare una commissione di affiliazione. Scopri di più
Avatar di Andrea Maiellano

a cura di Andrea Maiellano

Author

Pubblicato il 15/10/2024 alle 19:00

Un nuovo studio condotto da sei ingegneri Apple mette in luce i limiti delle capacità di ragionamento matematico dei modelli linguistici di intelligenza artificiale più avanzati.

La ricerca, intitolata "GSM-Symbolic", ha rivelato che modifiche apparentemente banali ai problemi matematici standard possono portare a cali significativi nelle prestazioni di questi sistemi IA.

La fragilità evidenziata da questi nuovi risultati supporta ricerche precedenti.

Lo studio si è concentrato sul benchmark GSM8K, un set di oltre 8.000 problemi matematici di livello elementare spesso utilizzato per valutare le capacità di ragionamento complesso dei modelli linguistici.

I ricercatori hanno creato una nuova versione chiamata GSM-Symbolic, modificando nomi e numeri nei problemi originali senza alterarne la difficoltà matematica intrinseca.

Testando oltre 20 modelli linguistici all'avanguardia su GSM-Symbolic, i ricercatori hanno riscontrato cali di accuratezza tra lo 0,3% e il 9,2% rispetto ai risultati su GSM8K. Inoltre, è emersa un'elevata varianza tra diverse esecuzioni del test, con differenze di accuratezza fino al 15% per lo stesso modello.

Questi risultati suggeriscono che i modelli non stanno effettuando un vero ragionamento formale, ma piuttosto cercando di replicare pattern simili visti nei dati di addestramento.

Come affermano i ricercatori: "Gli attuali modelli linguistici di grandi dimensioni non sono capaci di un genuino ragionamento logico. Invece, tentano di replicare i passaggi di ragionamento osservati nei loro dati di addestramento."

La situazione peggiora ulteriormente quando i ricercatori hanno aggiunto informazioni irrilevanti ai problemi, creando il benchmark "GSM-NoOp". Questo ha portato a cali "catastrofici" nelle prestazioni, con riduzioni di accuratezza tra il 17,5% e il 65,7%.

Questi risultati evidenziano i limiti intrinseci nell'utilizzo del semplice "pattern matching" per affrontare problemi di ragionamento complesso.

Immagine id 37864

Come spiega Gary Marcus, esperto di IA: "Il prossimo grande passo avanti nelle capacità dell'IA arriverà solo quando queste reti neurali potranno integrare una vera manipolazione di simboli, in cui alcune conoscenze sono rappresentate in modo veramente astratto in termini di variabili e operazioni su quelle variabili, come vediamo nell'algebra e nella programmazione tradizionale."

Lo studio mette in luce la fragilità delle attuali capacità di "ragionamento" delle IA e suggerisce che, nonostante i progressi impressionanti, siamo ancora lontani da una vera comprensione matematica e logica paragonabile a quella umana.

Questi risultati potrebbero guidare lo sviluppo futuro di sistemi di IA più robusti e affidabili per compiti che richiedono un ragionamento complesso.

Fonte dell'articolo: arstechnica.com

Leggi altri articoli

👋 Partecipa alla discussione! Scopri le ultime novità che abbiamo riservato per te!

0 Commenti

⚠️ Stai commentando come Ospite . Vuoi accedere?


Questa funzionalità è attualmente in beta, se trovi qualche errore segnalacelo.

Segui questa discussione
Advertisement

Non perdere gli ultimi aggiornamenti

Newsletter Telegram

I più letti di oggi


  • #1
    Dimenticatevi di PS3! Ora potete emulare i giochi PS4 su Windows
  • #2
    Hai comprato Switch 2? Ecco 10 cose da NON fare assolutamente
  • #3
    Le RTX 4090 e 5090 in difficoltà con la demo di Hell Is Us
  • #4
    Chrome introduce (finalmente) una funzionalità utilissima per i PDF
  • #5
    AMD Radeon RX 9060 XT 16GB, la migliore sotto i 400 euro | Test & Recensione
  • #6
    La storia della Ford Focus ST è finita per sempre
Articolo 1 di 5
AMD Radeon RX 9060 XT 16GB, la migliore sotto i 400 euro | Test & Recensione
La nuova Radeon RX 9060 XT ha tutte le carte in regola per replicare il successo delle RX 9070.. se si troverà al giusto prezzo.
Immagine di AMD Radeon RX 9060 XT 16GB, la migliore sotto i 400 euro | Test & Recensione
38
Leggi questo articolo
Articolo 2 di 5
La GPU più veloce del mondo è un'integrata Intel
Prestazioni fino a 2 volte superiori rispetto alle impostazioni standard per un'esperienza di utilizzo ottimizzata e velocità elevate.
Immagine di La GPU più veloce del mondo è un'integrata Intel
10
Leggi questo articolo
Articolo 3 di 5
MediaWorld taglia 400€ su questo notebook Asus con la promo Red Price
Mediaworld lancia la promo Red Price, valida fino al 12 giugno. Al suo interno spicca il notebook ASUS TUF FA507NVR e il suo sconto di 400€.
Immagine di MediaWorld taglia 400€ su questo notebook Asus con la promo Red Price
Leggi questo articolo
Articolo 4 di 5
Aggiorna il tuo PC con ASUS PRIME RTX 5070: ora in OFFERTA! -24%
ASUS PRIME NVIDIA GeForce RTX 5070 combina un design robusto con una dissipazione del calore efficiente, garantendo prestazioni elevate anche sotto carico.
Immagine di Aggiorna il tuo PC con ASUS PRIME RTX 5070: ora in OFFERTA! -24%
Leggi questo articolo
Articolo 5 di 5
93€ per un mini PC? No, non è uno scherzo. Guarda qui
Un mini PC valido a soli 93€? Con questo coupon è realtà! A permette questo affare è Aliexpress, che offre il piccolo Bmax B3 a un prezzo stracciato.
Immagine di 93€ per un mini PC? No, non è uno scherzo. Guarda qui
Leggi questo articolo
Advertisement
Advertisement

Advertisement

Footer
Tom's Hardware Logo

 
Contatti
  • Contattaci
  • Feed RSS
Legale
  • Chi siamo
  • Privacy
  • Cookie
  • Affiliazione Commerciale
Altri link
  • Forum
Il Network 3Labs Network Logo
  • Tom's Hardware
  • SpazioGames
  • CulturaPop
  • Data4Biz
  • TechRadar
  • SosHomeGarden
  • Aibay

Tom's Hardware - Testata giornalistica associata all'USPI Unione Stampa Periodica Italiana, registrata presso il Tribunale di Milano, nr. 285 del 9/9/2013 - Direttore: Andrea Ferrario

3LABS S.R.L. • Via Pietro Paleocapa 1 - Milano (MI) 20121
CF/P.IVA: 04146420965 - REA: MI - 1729249 - Capitale Sociale: 10.000 euro

© 2025 3Labs Srl. Tutti i diritti riservati.