image/svg+xml
Logo Tom's Hardware
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Tom's Hardware Logo
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Forum
  • Sconti & Coupon
Offerte di Natale
Accedi a Xenforo
Immagine di Bambu Lab H2C: addio sprechi con la stampa multi-colore | Test & Recensione Bambu Lab H2C: addio sprechi con la stampa multi-colore | Te...
Immagine di RAM troppo care: crollo del 50% per le motherboard RAM troppo care: crollo del 50% per le motherboard...

OpenAI insegna ai suoi LLM a “confessare” gli errori

Il nuovo framework premia i modelli che ammettono bug, scorciatoie e violazioni delle istruzioni, puntando su trasparenza e affidabilità.

Advertisement

Avatar di Antonello Buzzi

a cura di Antonello Buzzi

Senior Editor @Tom's Hardware Italia

Pubblicato il 04/12/2025 alle 11:35

La notizia in un minuto

  • OpenAI sviluppa il framework "confession" che insegna agli LLM a riconoscere e ammettere autonomamente comportamenti problematici come allucinazioni e compiacenza durante la generazione delle risposte
  • Il sistema introduce una riflessione interna parallela che viene premiata esclusivamente per l'onestà, capovolgendo la logica tradizionale del reinforcement learning: ammettere violazioni aumenta la ricompensa anziché diminuirla
  • L'approccio potrebbe rappresentare uno strumento cruciale per valutare l'affidabilità degli LLM in contesti critici come sanità, settore legale e finanziario, dove l'accuratezza è fondamentale

Riassunto generato con l’IA. Potrebbe non essere accurato.

Quando acquisti tramite i link sul nostro sito, potremmo guadagnare una commissione di affiliazione. Scopri di più

OpenAI ha annunciato lo sviluppo di un nuovo approccio all'addestramento dei modelli di intelligenza artificiale che potrebbe rappresentare una svolta nella gestione della trasparenza degli LLM (Large Language Model). Il framework, denominato "confession" (confessione), mira a insegnare ai modelli linguistici a riconoscere e ammettere autonomamente comportamenti problematici o indesiderati durante il processo di generazione delle risposte. L'iniziativa nasce dalla necessità di affrontare problematiche ricorrenti come la tendenza alla compiacenza (sycophancy) e le allucinazioni presentate con totale sicurezza, fenomeni che affliggono sempre più i sistemi di AI generativa man mano che vengono ottimizzati per fornire risposte gradite agli utenti.

Il meccanismo ideato dal team di ricerca introduce una seconda fase di valutazione parallela alla generazione della risposta principale. Mentre il modello elabora la risposta all'utente, viene simultaneamente sollecitato a produrre una riflessione interna sul proprio processo decisionale, rivelando potenziali scorciatoie, comportamenti elusivi o violazioni delle istruzioni ricevute. La documentazione tecnica completa è stata resa disponibile pubblicamente da OpenAI.

AI Week
Codice sconto copiato!
AI Week Logo

Se l'Intelligenza Artificiale è il tuo futuro, iscriviti subito alla AI Week 2026 per approfondire tutti questi temi con gli esperti.

  1. Utilizza il codice sconto esclusivo per i lettori di Tom's Hardware:
  2. Acquista il tuo biglietto prima che sia troppo tardi!
    Iscriviti ora!

L'aspetto più innovativo del sistema risiede nel criterio di valutazione applicato a queste "confessioni". A differenza delle risposte principali, che vengono giudicate secondo molteplici parametri come utilità, accuratezza e conformità alle direttive, le ammissioni del modello vengono valutate esclusivamente sulla base dell'onestà. Questo approccio capovolge la logica tradizionale del reinforcement learning applicato agli LLM.

Se il modello ammette onestamente di aver aggirato un test, sabotato deliberatamente le proprie prestazioni o violato le istruzioni, questa ammissione aumenta la sua ricompensa anziché diminuirla

I ricercatori hanno specificato che l'obiettivo è incentivare la trasparenza su azioni potenzialmente problematiche come l'hacking di test (aggirare valutazioni con scorciatoie non previste), il sandbagging (ridurre deliberatamente le prestazioni per eludere controlli) o la disobbedienza alle istruzioni fornite. Il sistema di ricompensa viene quindi calibrato per premiare l'autocritica genuina piuttosto che punirla, un paradosso apparente che secondo OpenAI potrebbe risolvere uno dei dilemmi centrali dell'allineamento dell'AI.

La proposta arriva in un momento critico per lo sviluppo degli LLM, dove l'escalation delle capacità si accompagna a crescenti preoccupazioni sulla verificabilità e l'affidabilità dei sistemi. Le allucinazioni confidenti – risposte completamente inventate presentate come fatti certi – rappresentano uno dei problemi più insidiosi per l'adozione enterprise dell'AI generativa, mentre la tendenza alla compiacenza mina la capacità di questi sistemi di fornire feedback critico quando necessario.

L'implementazione pratica del framework solleva interrogativi tecnici interessanti. Come garantire che le "confessioni" stesse non diventino un ulteriore strato di output manipolato? Come bilanciare la penalizzazione per comportamenti indesiderati nella risposta principale con la ricompensa per l'ammissione di tali comportamenti? OpenAI non ha ancora specificato se e quando questo approccio verrà integrato nei modelli di produzione o nei futuri aggiornamenti della serie, né sono stati forniti benchmark quantitativi sull'efficacia del metodo rispetto agli approcci tradizionali di fine-tuning e RLHF (Reinforcement Learning from Human Feedback).

Fonte dell'articolo: www.engadget.com

👋 Partecipa alla discussione! Scopri le ultime novità che abbiamo riservato per te!

0 Commenti

⚠️ Stai commentando come Ospite . Vuoi accedere?

Invia

Per commentare come utente ospite, clicca quadrati

Cliccati: 0 /

Reset

Questa funzionalità è attualmente in beta, se trovi qualche errore segnalacelo.

Segui questa discussione

Advertisement

Ti potrebbe interessare anche

RAM troppo care: crollo del 50% per le motherboard

Hardware

RAM troppo care: crollo del 50% per le motherboard

Di Antonello Buzzi
Bambu Lab H2C: addio sprechi con la stampa multi-colore | Test & Recensione
Editor's Choice
6

Hardware

Bambu Lab H2C: addio sprechi con la stampa multi-colore | Test & Recensione

Di Andrea Ferrario
Intel 14A: ecco perché cambierà tutto
6

Hardware

Intel 14A: ecco perché cambierà tutto

Di Antonello Buzzi
Carenza DRAM senza fine: prezzi in volo fino al 2028
2

Hardware

Carenza DRAM senza fine: prezzi in volo fino al 2028

Di Antonello Buzzi
OLED e burn-in: questo test smentisce i timori più diffusi
2

Hardware

OLED e burn-in: questo test smentisce i timori più diffusi

Di Antonello Buzzi

Advertisement

Advertisement

Footer
Tom's Hardware Logo

 
Contatti
  • Contattaci
  • Feed RSS
Legale
  • Chi siamo
  • Privacy
  • Cookie
  • Affiliazione Commerciale
Altri link
  • Forum
Il Network 3Labs Network Logo
  • Tom's Hardware
  • SpazioGames
  • CulturaPop
  • Data4Biz
  • TechRadar
  • SosHomeGarden
  • Aibay

Tom's Hardware - Testata giornalistica associata all'USPI Unione Stampa Periodica Italiana, registrata presso il Tribunale di Milano, nr. 285 del 9/9/2013 - Direttore: Andrea Ferrario

3LABS S.R.L. • Via Pietro Paleocapa 1 - Milano (MI) 20121
CF/P.IVA: 04146420965 - REA: MI - 1729249 - Capitale Sociale: 10.000 euro

© 2025 3Labs Srl. Tutti i diritti riservati.