image/svg+xml
Logo Tom's Hardware
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Tom's Hardware Logo
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Forum
  • Sconti & Coupon
Offerte & Coupon
Accedi a Xenforo
Immagine di Micron 9650 diventa il primo SSD PCIe 6.0 prodotto in massa Micron 9650 diventa il primo SSD PCIe 6.0 prodotto in massa...
Immagine di Aggiornamento di emergenza per Chrome: installatelo subito Aggiornamento di emergenza per Chrome: installatelo subito...

OpenAI insegna ai suoi LLM a “confessare” gli errori

Il nuovo framework premia i modelli che ammettono bug, scorciatoie e violazioni delle istruzioni, puntando su trasparenza e affidabilità.

Advertisement

Avatar di Antonello Buzzi

a cura di Antonello Buzzi

Senior Editor @Tom's Hardware Italia

Pubblicato il 04/12/2025 alle 11:35

La notizia in un minuto

  • OpenAI sviluppa il framework "confession" che insegna agli LLM a riconoscere e ammettere autonomamente comportamenti problematici come allucinazioni e compiacenza durante la generazione delle risposte
  • Il sistema introduce una riflessione interna parallela che viene premiata esclusivamente per l'onestà, capovolgendo la logica tradizionale del reinforcement learning: ammettere violazioni aumenta la ricompensa anziché diminuirla
  • L'approccio potrebbe rappresentare uno strumento cruciale per valutare l'affidabilità degli LLM in contesti critici come sanità, settore legale e finanziario, dove l'accuratezza è fondamentale

Riassunto generato con l’IA. Potrebbe non essere accurato.

Quando acquisti tramite i link sul nostro sito, potremmo guadagnare una commissione di affiliazione. Scopri di più

OpenAI ha annunciato lo sviluppo di un nuovo approccio all'addestramento dei modelli di intelligenza artificiale che potrebbe rappresentare una svolta nella gestione della trasparenza degli LLM (Large Language Model). Il framework, denominato "confession" (confessione), mira a insegnare ai modelli linguistici a riconoscere e ammettere autonomamente comportamenti problematici o indesiderati durante il processo di generazione delle risposte. L'iniziativa nasce dalla necessità di affrontare problematiche ricorrenti come la tendenza alla compiacenza (sycophancy) e le allucinazioni presentate con totale sicurezza, fenomeni che affliggono sempre più i sistemi di AI generativa man mano che vengono ottimizzati per fornire risposte gradite agli utenti.

Il meccanismo ideato dal team di ricerca introduce una seconda fase di valutazione parallela alla generazione della risposta principale. Mentre il modello elabora la risposta all'utente, viene simultaneamente sollecitato a produrre una riflessione interna sul proprio processo decisionale, rivelando potenziali scorciatoie, comportamenti elusivi o violazioni delle istruzioni ricevute. La documentazione tecnica completa è stata resa disponibile pubblicamente da OpenAI.

AI Week
Codice sconto copiato!
AI Week Logo

Se l'Intelligenza Artificiale è il tuo futuro, iscriviti subito alla AI Week 2026 per approfondire tutti questi temi con gli esperti.

  1. Utilizza il codice sconto esclusivo per i lettori di Tom's Hardware:
  2. Acquista il tuo biglietto prima che sia troppo tardi!
    Iscriviti ora!

L'aspetto più innovativo del sistema risiede nel criterio di valutazione applicato a queste "confessioni". A differenza delle risposte principali, che vengono giudicate secondo molteplici parametri come utilità, accuratezza e conformità alle direttive, le ammissioni del modello vengono valutate esclusivamente sulla base dell'onestà. Questo approccio capovolge la logica tradizionale del reinforcement learning applicato agli LLM.

Se il modello ammette onestamente di aver aggirato un test, sabotato deliberatamente le proprie prestazioni o violato le istruzioni, questa ammissione aumenta la sua ricompensa anziché diminuirla

I ricercatori hanno specificato che l'obiettivo è incentivare la trasparenza su azioni potenzialmente problematiche come l'hacking di test (aggirare valutazioni con scorciatoie non previste), il sandbagging (ridurre deliberatamente le prestazioni per eludere controlli) o la disobbedienza alle istruzioni fornite. Il sistema di ricompensa viene quindi calibrato per premiare l'autocritica genuina piuttosto che punirla, un paradosso apparente che secondo OpenAI potrebbe risolvere uno dei dilemmi centrali dell'allineamento dell'AI.

La proposta arriva in un momento critico per lo sviluppo degli LLM, dove l'escalation delle capacità si accompagna a crescenti preoccupazioni sulla verificabilità e l'affidabilità dei sistemi. Le allucinazioni confidenti – risposte completamente inventate presentate come fatti certi – rappresentano uno dei problemi più insidiosi per l'adozione enterprise dell'AI generativa, mentre la tendenza alla compiacenza mina la capacità di questi sistemi di fornire feedback critico quando necessario.

L'implementazione pratica del framework solleva interrogativi tecnici interessanti. Come garantire che le "confessioni" stesse non diventino un ulteriore strato di output manipolato? Come bilanciare la penalizzazione per comportamenti indesiderati nella risposta principale con la ricompensa per l'ammissione di tali comportamenti? OpenAI non ha ancora specificato se e quando questo approccio verrà integrato nei modelli di produzione o nei futuri aggiornamenti della serie, né sono stati forniti benchmark quantitativi sull'efficacia del metodo rispetto agli approcci tradizionali di fine-tuning e RLHF (Reinforcement Learning from Human Feedback).

Fonte dell'articolo: www.engadget.com

Le notizie più lette

#1
Aggiornamento di emergenza per Chrome: installatelo subito
5

Hardware

Aggiornamento di emergenza per Chrome: installatelo subito

#2
La dieta nordica riduce la mortalità del 23%
4

Scienze

La dieta nordica riduce la mortalità del 23%

#3
Smettere di mangiare 3 ore prima migliora il cuore

Scienze

Smettere di mangiare 3 ore prima migliora il cuore

#4
Brutte notizie per PS6 e Nintendo Switch 2
5

Videogioco

Brutte notizie per PS6 e Nintendo Switch 2

#5
Micron 9650 diventa il primo SSD PCIe 6.0 prodotto in massa
5

Hardware

Micron 9650 diventa il primo SSD PCIe 6.0 prodotto in massa

👋 Partecipa alla discussione!

0 Commenti

⚠️ Stai commentando come Ospite . Vuoi accedere?

Invia

Per commentare come utente ospite, clicca quadrati

Cliccati: 0 /

Reset

Questa funzionalità è attualmente in beta, se trovi qualche errore segnalacelo.

Segui questa discussione

Advertisement

Ti potrebbe interessare anche

Aggiornamento di emergenza per Chrome: installatelo subito
5

Hardware

Aggiornamento di emergenza per Chrome: installatelo subito

Di Marco Pedrani
Micron 9650 diventa il primo SSD PCIe 6.0 prodotto in massa
5

Hardware

Micron 9650 diventa il primo SSD PCIe 6.0 prodotto in massa

Di Antonello Buzzi
Non è solo una VPN. È Surfshark One, il tuo superpotere digitale

Sponsorizzato

Non è solo una VPN. È Surfshark One, il tuo superpotere digitale

Di Dario De Vita
YouTube introduce nuove restrizioni agli ad blocker
4

Hardware

YouTube introduce nuove restrizioni agli ad blocker

Di Antonello Buzzi
5 prodotti Apple in arrivo: quali sono?
2

Hardware

5 prodotti Apple in arrivo: quali sono?

Di Marco Pedrani

Advertisement

Advertisement

Footer
Tom's Hardware Logo

 
Contatti
  • Contattaci
  • Feed RSS
Legale
  • Chi siamo
  • Privacy
  • Cookie
  • Affiliazione Commerciale
Altri link
  • Forum
Il Network 3Labs Network Logo
  • Tom's Hardware
  • SpazioGames
  • CulturaPop
  • Data4Biz
  • TechRadar
  • SosHomeGarden
  • Aibay

Tom's Hardware - Testata giornalistica associata all'USPI Unione Stampa Periodica Italiana, registrata presso il Tribunale di Milano, nr. 285 del 9/9/2013 - Direttore: Andrea Ferrario

3LABS S.R.L. • Via Pietro Paleocapa 1 - Milano (MI) 20121
CF/P.IVA: 04146420965 - REA: MI - 1729249 - Capitale Sociale: 10.000 euro

© 2026 3Labs Srl. Tutti i diritti riservati.