Logo Tom's Hardware
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Tom's Hardware Logo
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Forum
  • Sconti & Coupon
Black Friday

Novità!

Prova la nuova modalità di navigazione con le storie!

Accedi a Xenforo
Immagine di Windows è pieno di agenti AI, ma la gente lo detesta Windows è pieno di agenti AI, ma la gente lo detesta...
Immagine di Microsoft Teams anti-assenteismo, presto dirà se sei davvero in ufficio Microsoft Teams anti-assenteismo, presto dirà se sei davver...

Questa IA si migliora da sola senza supervisione

Meta FAIR e l'Università di Singapore sviluppano SPICE, un framework di apprendimento per rinforzo che migliora l'IA tramite sfide autoprodotte senza supervisione umana.

Quando acquisti tramite i link sul nostro sito, potremmo guadagnare una commissione di affiliazione. Scopri di più
Avatar di Antonino Caffo

a cura di Antonino Caffo

Editor

Pubblicato il 14/11/2025 alle 13:11

La notizia in un minuto

  • SPICE utilizza un'architettura duale dove un modello AI opera in due ruoli distinti: il Challenger genera problemi basati su documenti reali mentre il Reasoner li risolve senza accesso alle fonti, eliminando la simmetria informativa che causa stagnazione nei sistemi tradizionali
  • L'ancoraggio a documenti reali previene le allucinazioni e permette di applicare il framework a qualsiasi dominio specialistico senza necessità di dataset curati manualmente, superando i limiti dei metodi confinati a matematica e programmazione
  • I test dimostrano una co-evoluzione efficace dei due agenti: il Reasoner migliora dal 55% all'85% di successo mentre il Challenger genera sfide progressivamente più complesse, rappresentando un cambio di paradigma verso sistemi AI capaci di adattarsi autonomamente ai loro ambienti
Riassunto generato con l'IA. Potrebbe non essere accurato.

Nel campo dell'intelligenza artificiale, il problema di come far evolvere autonomamente i sistemi senza supervisione umana costante rappresenta una delle sfide più complesse. Un gruppo di ricerca composto da scienziati di Meta FAIR e della National University of Singapore ha messo a punto un approccio innovativo che ribalta la logica tradizionale: invece di alimentare i modelli con dataset predefiniti, li fa competere contro se stessi in un ambiente basato su documenti reali. Il risultato è SPICE (Self-Play In Corpus Environments), un framework di reinforcement learning che promette di superare i limiti delle tecniche attuali.

Le metodologie convenzionali per l'auto-miglioramento dell'AI si scontrano con ostacoli significativi. L'approccio più diffuso, il reinforcement learning con ricompense verificabili, dipende fortemente da set di problemi curati manualmente e da sistemi di ricompensa specifici per ogni dominio, rendendone difficile l'espansione. Anche il self-play, dove un modello migliora confrontandosi con se stesso, ha mostrato gravi limitazioni: gli errori fattuali nelle domande e risposte generate si amplificano creando un circolo vizioso di allucinazioni, mentre la simmetria informativa tra chi genera i problemi e chi li risolve porta a sfide ripetitive e poco stimolanti.

La soluzione proposta da SPICE si basa su un'architettura duale che elimina proprio questa simmetria informativa. Un singolo modello opera simultaneamente in due ruoli distinti: il "Challenger" costruisce un curriculum di problemi sempre più complessi attingendo da un vasto corpus documentale, mentre il "Reasoner" tenta di risolvere questi problemi senza avere accesso ai documenti originali. Questa separazione fondamentale impedisce la stagnazione che affligge altri metodi di auto-apprendimento.

Immagine id 75783

L'ancoraggio ai documenti reali costituisce l'elemento chiave per prevenire le allucinazioni, uno dei problemi più persistenti nei modelli linguistici di grandi dimensioni. Come sottolineano i ricercatori nel loro studio pubblicato su arXiv, l'auto-miglioramento richiede necessariamente l'interazione con fonti esterne che forniscano feedback diversificato e verificabile, piuttosto che una semplice introspezione a ciclo chiuso. In altre parole, gli agenti AI devono imparare dall'esperienza del mondo reale e dalle interazioni umane, non solo dai propri output.

Il Challenger è premiato per generare problemi al limite delle capacità del Reasoner

La dinamica competitiva tra i due ruoli genera automaticamente un percorso formativo progressivo. Il Challenger riceve ricompense quando crea problemi che risultano sufficientemente difficili ma non impossibili, posizionandosi esattamente alla frontiera delle capacità del Reasoner. Quest'ultimo viene invece premiato per le risposte corrette. Questa interazione simbiotica spinge entrambi gli agenti a scoprire e superare continuamente nuove sfide, in un processo di co-evoluzione.

La flessibilità del sistema rappresenta un vantaggio notevole rispetto ai metodi precedenti. Utilizzando documenti grezzi invece di coppie domanda-risposta predefinite, SPICE può generare formati di compito diversificati, dalle domande a scelta multipla a quelle a risposta aperta. Questo elimina il vincolo che confinava le tecniche precedenti a campi ristretti come matematica e programmazione, aprendo potenzialmente a qualsiasi dominio specialistico, dall'analisi legale a quella medica, senza dipendere da costosi dataset curati manualmente.

I test condotti su diversi modelli base, tra cui Qwen3-4B-Base e OctoThinker-3B-Hybrid-Base, hanno confermato l'efficacia dell'approccio. Le performance sono state confrontate con vari baseline, inclusi modelli senza addestramento specifico, modelli addestrati con un Challenger fisso e potente, e metodi di self-play puro come R-Zero e Absolute Zero. I risultati mostrano che SPICE ha costantemente superato le alternative su un'ampia gamma di benchmark di ragionamento matematico e generale.

Un dato particolarmente significativo emerso dalla sperimentazione riguarda l'evoluzione parallela dei due agenti. Durante l'addestramento, il tasso di successo del Reasoner su un set fisso di problemi è aumentato dal 55% all'85%, dimostrando il miglioramento delle sue capacità. Contemporaneamente, le versioni più recenti del Challenger sono riuscite a generare domande che hanno ridotto il tasso di successo di un Reasoner nelle fasi iniziali dal 55% al 35%, confermando che entrambi i ruoli si sviluppano efficacemente in tandem.

Secondo i ricercatori, questo lavoro segna un cambio di paradigma nei metodi di ragionamento auto-miglioranti: dalla stagnazione del self-play a ciclo chiuso, spesso compromesso dalla deriva allucinogena, verso un miglioramento aperto attraverso l'interazione con la vasta conoscenza verificabile incorporata nei corpus documentali del web. Al momento, il corpus utilizzato rappresenta l'esperienza umana catturata in formato testuale, ma l'obiettivo finale è estendere questi sistemi alle interazioni con la realtà fisica, internet e gli esseri umani attraverso multiple modalità come video, audio e dati sensoriali.

Sebbene SPICE sia ancora un proof-of-concept, il meccanismo di self-play che propone potrebbe costituire la base per futuri sistemi AI capaci di adattarsi dinamicamente ai loro ambienti. La capacità di generare autonomamente sfide sempre più complesse e di apprendere da fonti di conoscenza esterne potrebbe rendere questi sistemi più robusti di fronte all'imprevedibilità delle applicazioni nel mondo reale, un requisito essenziale per la loro diffusione oltre i contesti di laboratorio controllati.

Leggi altri articoli

👋 Partecipa alla discussione! Scopri le ultime novità che abbiamo riservato per te!

0 Commenti

⚠️ Stai commentando come Ospite . Vuoi accedere?

Invia

Per commentare come utente ospite, clicca cerchi

Cliccati: 0 /

Reset

Questa funzionalità è attualmente in beta, se trovi qualche errore segnalacelo.

Segui questa discussione

Non perdere gli ultimi aggiornamenti

Newsletter Telegram

I più letti di oggi


  • #1
    Scoperti nuovi indizi sulle origini di Homo sapiens
  • #2
    Unieuro non si ferma: le promozioni del Black Friday continuano
  • #3
    Windows 26 riprende l’eredità di Vista e 7, ma con stile
  • #4
    22% di sconto su Amazon con appena 25€ di spesa
  • #5
    Scatta il blocco sui siti porno: cosa succede ora?
  • #6
    Addio visori ingombranti: l’AR fa un salto avanti
Articolo 1 di 5
Microsoft Teams anti-assenteismo, presto dirà se sei davvero in ufficio
Da dicembre, Microsoft Teams sui client Windows e macOS introdurrà il rilevamento automatico della posizione tramite rete Wi-Fi. La funzionalità, nata per l'efficienza, è subito vista come uno strumento anti-assenteismo che pone un rischio per la privacy.
Immagine di Microsoft Teams anti-assenteismo, presto dirà se sei davvero in ufficio
3
Leggi questo articolo
Articolo 2 di 5
Windows è pieno di agenti AI, ma la gente lo detesta
Il presidente di Windows, Pavan Davuluri, ha ribadito la strategia di Microsoft per trasformare il sistema operativo in una piattaforma "agentica" basata sull'IA, incontrando il forte dissenso degli utenti.
Immagine di Windows è pieno di agenti AI, ma la gente lo detesta
3
Leggi questo articolo
Articolo 3 di 5
Per essere promossi non serve un titolo di studio prestigioso (secondo questo ex CEO)
Dan Springer, ex CEO di DocuSign e attuale guida di Ironclad, sostiene che per la promozione aziendale contino solo competenze, etica del lavoro e controllo dell'ego, molto più del titolo accademico.
Immagine di Per essere promossi non serve un titolo di studio prestigioso (secondo questo ex CEO)
1
Leggi questo articolo
Articolo 4 di 5
SumUP ti fa risparmiare al Black Friday con questi bundle esclusivi
POS Lite Starter Kit Includes: POS Lite + Solo + Epson Printer Price: 459 EUR/£ Black Friday Price: 359 EUR/£ POS Lite Full Kit Includes: POS Lite + Solo + Epson printer + Cash drawer Price: 499 EUR/£ Black Friday Price: 399 EUR/£ POS Lite Retail Kit Includes: POS Lite + Solo + Epson printer + Cash drawer + Scanner Price: 539 EUR/£ Black Friday Price: 439 EUR/£
Immagine di SumUP ti fa risparmiare al Black Friday con questi bundle esclusivi
Leggi questo articolo
Articolo 5 di 5
Impariamo a "parlare" con l'IA alla Generative-AI Week
Con Mariangela Digravina di IA Spiegata Semplice per anticipare la Generative-AI Week (17–21 novembre): 5 giorni di formazione gratuita online
Immagine di Impariamo a "parlare" con l'IA alla Generative-AI Week
1
Leggi questo articolo
Footer
Tom's Hardware Logo

 
Contatti
  • Contattaci
  • Feed RSS
Legale
  • Chi siamo
  • Privacy
  • Cookie
  • Affiliazione Commerciale
Altri link
  • Forum
Il Network 3Labs Network Logo
  • Tom's Hardware
  • SpazioGames
  • CulturaPop
  • Data4Biz
  • TechRadar
  • SosHomeGarden
  • Aibay

Tom's Hardware - Testata giornalistica associata all'USPI Unione Stampa Periodica Italiana, registrata presso il Tribunale di Milano, nr. 285 del 9/9/2013 - Direttore: Andrea Ferrario

3LABS S.R.L. • Via Pietro Paleocapa 1 - Milano (MI) 20121
CF/P.IVA: 04146420965 - REA: MI - 1729249 - Capitale Sociale: 10.000 euro

© 2025 3Labs Srl. Tutti i diritti riservati.