Logo Tom's Hardware
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Tom's Hardware Logo
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Forum
  • Sconti & Coupon
Offerte & Coupon
Accedi a Xenforo
Immagine di Questa IA si migliora da sola senza supervisione
Business
Immagine di Perché i freelance tecnici restano fermi (e gli altri no) Perché i freelance tecnici restano fermi (e gli altri no)...
Immagine di Perplexity Computer: ho speso 200 euro in 12 ore così non devi farlo tu Perplexity Computer: ho speso 200 euro in 12 ore così non d...

Questa IA si migliora da sola senza supervisione

Meta FAIR e l'Università di Singapore sviluppano SPICE, un framework di apprendimento per rinforzo che migliora l'IA tramite sfide autoprodotte senza supervisione umana.

Avatar di Antonino Caffo

a cura di Antonino Caffo

Editor @Tom's Hardware Italia

Pubblicato il 14/11/2025 alle 13:11

La notizia in un minuto

  • SPICE utilizza un'architettura duale dove un modello AI opera in due ruoli distinti: il Challenger genera problemi basati su documenti reali mentre il Reasoner li risolve senza accesso alle fonti, eliminando la simmetria informativa che causa stagnazione nei sistemi tradizionali
  • L'ancoraggio a documenti reali previene le allucinazioni e permette di applicare il framework a qualsiasi dominio specialistico senza necessità di dataset curati manualmente, superando i limiti dei metodi confinati a matematica e programmazione
  • I test dimostrano una co-evoluzione efficace dei due agenti: il Reasoner migliora dal 55% all'85% di successo mentre il Challenger genera sfide progressivamente più complesse, rappresentando un cambio di paradigma verso sistemi AI capaci di adattarsi autonomamente ai loro ambienti

Riassunto generato con l’IA. Potrebbe non essere accurato.

Quando acquisti tramite i link sul nostro sito, potremmo guadagnare una commissione di affiliazione. Scopri di più

Nel campo dell'intelligenza artificiale, il problema di come far evolvere autonomamente i sistemi senza supervisione umana costante rappresenta una delle sfide più complesse. Un gruppo di ricerca composto da scienziati di Meta FAIR e della National University of Singapore ha messo a punto un approccio innovativo che ribalta la logica tradizionale: invece di alimentare i modelli con dataset predefiniti, li fa competere contro se stessi in un ambiente basato su documenti reali. Il risultato è SPICE (Self-Play In Corpus Environments), un framework di reinforcement learning che promette di superare i limiti delle tecniche attuali.

Le metodologie convenzionali per l'auto-miglioramento dell'AI si scontrano con ostacoli significativi. L'approccio più diffuso, il reinforcement learning con ricompense verificabili, dipende fortemente da set di problemi curati manualmente e da sistemi di ricompensa specifici per ogni dominio, rendendone difficile l'espansione. Anche il self-play, dove un modello migliora confrontandosi con se stesso, ha mostrato gravi limitazioni: gli errori fattuali nelle domande e risposte generate si amplificano creando un circolo vizioso di allucinazioni, mentre la simmetria informativa tra chi genera i problemi e chi li risolve porta a sfide ripetitive e poco stimolanti.

Ti potrebbe interessare anche

youtube play
Guarda su youtube logo

La soluzione proposta da SPICE si basa su un'architettura duale che elimina proprio questa simmetria informativa. Un singolo modello opera simultaneamente in due ruoli distinti: il "Challenger" costruisce un curriculum di problemi sempre più complessi attingendo da un vasto corpus documentale, mentre il "Reasoner" tenta di risolvere questi problemi senza avere accesso ai documenti originali. Questa separazione fondamentale impedisce la stagnazione che affligge altri metodi di auto-apprendimento.

L'ancoraggio ai documenti reali costituisce l'elemento chiave per prevenire le allucinazioni, uno dei problemi più persistenti nei modelli linguistici di grandi dimensioni. Come sottolineano i ricercatori nel loro studio pubblicato su arXiv, l'auto-miglioramento richiede necessariamente l'interazione con fonti esterne che forniscano feedback diversificato e verificabile, piuttosto che una semplice introspezione a ciclo chiuso. In altre parole, gli agenti AI devono imparare dall'esperienza del mondo reale e dalle interazioni umane, non solo dai propri output.

Il Challenger è premiato per generare problemi al limite delle capacità del Reasoner

La dinamica competitiva tra i due ruoli genera automaticamente un percorso formativo progressivo. Il Challenger riceve ricompense quando crea problemi che risultano sufficientemente difficili ma non impossibili, posizionandosi esattamente alla frontiera delle capacità del Reasoner. Quest'ultimo viene invece premiato per le risposte corrette. Questa interazione simbiotica spinge entrambi gli agenti a scoprire e superare continuamente nuove sfide, in un processo di co-evoluzione.

La flessibilità del sistema rappresenta un vantaggio notevole rispetto ai metodi precedenti. Utilizzando documenti grezzi invece di coppie domanda-risposta predefinite, SPICE può generare formati di compito diversificati, dalle domande a scelta multipla a quelle a risposta aperta. Questo elimina il vincolo che confinava le tecniche precedenti a campi ristretti come matematica e programmazione, aprendo potenzialmente a qualsiasi dominio specialistico, dall'analisi legale a quella medica, senza dipendere da costosi dataset curati manualmente.

I test condotti su diversi modelli base, tra cui Qwen3-4B-Base e OctoThinker-3B-Hybrid-Base, hanno confermato l'efficacia dell'approccio. Le performance sono state confrontate con vari baseline, inclusi modelli senza addestramento specifico, modelli addestrati con un Challenger fisso e potente, e metodi di self-play puro come R-Zero e Absolute Zero. I risultati mostrano che SPICE ha costantemente superato le alternative su un'ampia gamma di benchmark di ragionamento matematico e generale.

Un dato particolarmente significativo emerso dalla sperimentazione riguarda l'evoluzione parallela dei due agenti. Durante l'addestramento, il tasso di successo del Reasoner su un set fisso di problemi è aumentato dal 55% all'85%, dimostrando il miglioramento delle sue capacità. Contemporaneamente, le versioni più recenti del Challenger sono riuscite a generare domande che hanno ridotto il tasso di successo di un Reasoner nelle fasi iniziali dal 55% al 35%, confermando che entrambi i ruoli si sviluppano efficacemente in tandem.

Secondo i ricercatori, questo lavoro segna un cambio di paradigma nei metodi di ragionamento auto-miglioranti: dalla stagnazione del self-play a ciclo chiuso, spesso compromesso dalla deriva allucinogena, verso un miglioramento aperto attraverso l'interazione con la vasta conoscenza verificabile incorporata nei corpus documentali del web. Al momento, il corpus utilizzato rappresenta l'esperienza umana catturata in formato testuale, ma l'obiettivo finale è estendere questi sistemi alle interazioni con la realtà fisica, internet e gli esseri umani attraverso multiple modalità come video, audio e dati sensoriali.

Sebbene SPICE sia ancora un proof-of-concept, il meccanismo di self-play che propone potrebbe costituire la base per futuri sistemi AI capaci di adattarsi dinamicamente ai loro ambienti. La capacità di generare autonomamente sfide sempre più complesse e di apprendere da fonti di conoscenza esterne potrebbe rendere questi sistemi più robusti di fronte all'imprevedibilità delle applicazioni nel mondo reale, un requisito essenziale per la loro diffusione oltre i contesti di laboratorio controllati.

Le notizie più lette

#1
Il disastro dell'IA a Sanremo è peggio di quello che sembra

Hardware

Il disastro dell'IA a Sanremo è peggio di quello che sembra

#2
Perplexity Computer: ho speso 200 euro in 12 ore così non devi farlo tu
2

Business

Perplexity Computer: ho speso 200 euro in 12 ore così non devi farlo tu

#3
Recensione Resident Evil Requiem, la chiusura di un cerchio
2

Recensione

Recensione Resident Evil Requiem, la chiusura di un cerchio

#4
RDNA 5 AT0, la top AMD torna per i gamer
7

Hardware

RDNA 5 AT0, la top AMD torna per i gamer

#5
Il MacBook low-cost avrà queste limitazioni
3

Hardware

Il MacBook low-cost avrà queste limitazioni

👋 Partecipa alla discussione!

0 Commenti

⚠️ Stai commentando come Ospite . Vuoi accedere?

Invia

Per commentare come utente ospite, clicca quadrati

Cliccati: 0 /

Reset

Questa funzionalità è attualmente in beta, se trovi qualche errore segnalacelo.

Segui questa discussione

Ti potrebbe interessare anche

IA e HR: le strategie che ogni azienda dovrebbe conoscere

Business

IA e HR: le strategie che ogni azienda dovrebbe conoscere

Di Antonino Caffo
Perplexity Computer: ho speso 200 euro in 12 ore così non devi farlo tu
2

Business

Perplexity Computer: ho speso 200 euro in 12 ore così non devi farlo tu

Di Roberto Buonanno
Perché i freelance tecnici restano fermi (e gli altri no)
1

Business

Perché i freelance tecnici restano fermi (e gli altri no)

Di José Compagnone
Lo compri, puoi giocare, ma non è tuo: licenze software e videogiochi
1

Business

Lo compri, puoi giocare, ma non è tuo: licenze software e videogiochi

Di Avv. Giuseppe Croari
Footer
Tom's Hardware Logo

 
Contatti
  • Contattaci
  • Feed RSS
Legale
  • Chi siamo
  • Privacy
  • Cookie
  • Affiliazione Commerciale
Altri link
  • Forum
Il Network 3Labs Network Logo
  • Tom's Hardware
  • SpazioGames
  • CulturaPop
  • Data4Biz
  • SosHomeGarden
  • Aibay
  • Coinlabs

Tom's Hardware - Testata giornalistica associata all'USPI Unione Stampa Periodica Italiana, registrata presso il Tribunale di Milano, nr. 285 del 9/9/2013 - Direttore: Andrea Ferrario

3LABS S.R.L. • Via Pietro Paleocapa 1 - Milano (MI) 20121
CF/P.IVA: 04146420965 - REA: MI - 1729249 - Capitale Sociale: 10.000 euro

© 2026 3Labs Srl. Tutti i diritti riservati.