image/svg+xml
Logo Tom's Hardware
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Tom's Hardware Logo
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Forum
  • Sconti & Coupon
Offerte & Coupon
Accedi a Xenforo
Immagine di Il CES 2026 ha mostrato i problemi del settore PC Il CES 2026 ha mostrato i problemi del settore PC...
Immagine di ChatGPT a breve vi aiuterà a trovare lavoro ChatGPT a breve vi aiuterà a trovare lavoro...

OpenAI insegna ai suoi LLM a “confessare” gli errori

Il nuovo framework premia i modelli che ammettono bug, scorciatoie e violazioni delle istruzioni, puntando su trasparenza e affidabilità.

Advertisement

Avatar di Antonello Buzzi

a cura di Antonello Buzzi

Senior Editor @Tom's Hardware Italia

Pubblicato il 04/12/2025 alle 11:35

La notizia in un minuto

  • OpenAI sviluppa il framework "confession" che insegna agli LLM a riconoscere e ammettere autonomamente comportamenti problematici come allucinazioni e compiacenza durante la generazione delle risposte
  • Il sistema introduce una riflessione interna parallela che viene premiata esclusivamente per l'onestà, capovolgendo la logica tradizionale del reinforcement learning: ammettere violazioni aumenta la ricompensa anziché diminuirla
  • L'approccio potrebbe rappresentare uno strumento cruciale per valutare l'affidabilità degli LLM in contesti critici come sanità, settore legale e finanziario, dove l'accuratezza è fondamentale

Riassunto generato con l’IA. Potrebbe non essere accurato.

Quando acquisti tramite i link sul nostro sito, potremmo guadagnare una commissione di affiliazione. Scopri di più

OpenAI ha annunciato lo sviluppo di un nuovo approccio all'addestramento dei modelli di intelligenza artificiale che potrebbe rappresentare una svolta nella gestione della trasparenza degli LLM (Large Language Model). Il framework, denominato "confession" (confessione), mira a insegnare ai modelli linguistici a riconoscere e ammettere autonomamente comportamenti problematici o indesiderati durante il processo di generazione delle risposte. L'iniziativa nasce dalla necessità di affrontare problematiche ricorrenti come la tendenza alla compiacenza (sycophancy) e le allucinazioni presentate con totale sicurezza, fenomeni che affliggono sempre più i sistemi di AI generativa man mano che vengono ottimizzati per fornire risposte gradite agli utenti.

Il meccanismo ideato dal team di ricerca introduce una seconda fase di valutazione parallela alla generazione della risposta principale. Mentre il modello elabora la risposta all'utente, viene simultaneamente sollecitato a produrre una riflessione interna sul proprio processo decisionale, rivelando potenziali scorciatoie, comportamenti elusivi o violazioni delle istruzioni ricevute. La documentazione tecnica completa è stata resa disponibile pubblicamente da OpenAI.

AI Week
Codice sconto copiato!
AI Week Logo

Se l'Intelligenza Artificiale è il tuo futuro, iscriviti subito alla AI Week 2026 per approfondire tutti questi temi con gli esperti.

  1. Utilizza il codice sconto esclusivo per i lettori di Tom's Hardware:
  2. Acquista il tuo biglietto prima che sia troppo tardi!
    Iscriviti ora!

L'aspetto più innovativo del sistema risiede nel criterio di valutazione applicato a queste "confessioni". A differenza delle risposte principali, che vengono giudicate secondo molteplici parametri come utilità, accuratezza e conformità alle direttive, le ammissioni del modello vengono valutate esclusivamente sulla base dell'onestà. Questo approccio capovolge la logica tradizionale del reinforcement learning applicato agli LLM.

Se il modello ammette onestamente di aver aggirato un test, sabotato deliberatamente le proprie prestazioni o violato le istruzioni, questa ammissione aumenta la sua ricompensa anziché diminuirla

I ricercatori hanno specificato che l'obiettivo è incentivare la trasparenza su azioni potenzialmente problematiche come l'hacking di test (aggirare valutazioni con scorciatoie non previste), il sandbagging (ridurre deliberatamente le prestazioni per eludere controlli) o la disobbedienza alle istruzioni fornite. Il sistema di ricompensa viene quindi calibrato per premiare l'autocritica genuina piuttosto che punirla, un paradosso apparente che secondo OpenAI potrebbe risolvere uno dei dilemmi centrali dell'allineamento dell'AI.

La proposta arriva in un momento critico per lo sviluppo degli LLM, dove l'escalation delle capacità si accompagna a crescenti preoccupazioni sulla verificabilità e l'affidabilità dei sistemi. Le allucinazioni confidenti – risposte completamente inventate presentate come fatti certi – rappresentano uno dei problemi più insidiosi per l'adozione enterprise dell'AI generativa, mentre la tendenza alla compiacenza mina la capacità di questi sistemi di fornire feedback critico quando necessario.

L'implementazione pratica del framework solleva interrogativi tecnici interessanti. Come garantire che le "confessioni" stesse non diventino un ulteriore strato di output manipolato? Come bilanciare la penalizzazione per comportamenti indesiderati nella risposta principale con la ricompensa per l'ammissione di tali comportamenti? OpenAI non ha ancora specificato se e quando questo approccio verrà integrato nei modelli di produzione o nei futuri aggiornamenti della serie, né sono stati forniti benchmark quantitativi sull'efficacia del metodo rispetto agli approcci tradizionali di fine-tuning e RLHF (Reinforcement Learning from Human Feedback).

Fonte dell'articolo: www.engadget.com

Le notizie più lette

#1
ChatGPT a breve vi aiuterà a trovare lavoro
3

Hardware

ChatGPT a breve vi aiuterà a trovare lavoro

#2
USA Vs Europa, la nuova dottrina usa la tecnologia come un'arma
1

Business

USA Vs Europa, la nuova dottrina usa la tecnologia come un'arma

#3
Ecco i presunti prezzi di Steam Machine
4

Videogioco

Ecco i presunti prezzi di Steam Machine

#4
Il CES 2026 ha mostrato i problemi del settore PC
3

CES 2026

Il CES 2026 ha mostrato i problemi del settore PC

#5
I robot più incredibili del CES 2026 ci mostrano come sarà il nostro futuro
3

CES 2026

I robot più incredibili del CES 2026 ci mostrano come sarà il nostro futuro

👋 Partecipa alla discussione!

0 Commenti

⚠️ Stai commentando come Ospite . Vuoi accedere?

Invia

Per commentare come utente ospite, clicca quadrati

Cliccati: 0 /

Reset

Questa funzionalità è attualmente in beta, se trovi qualche errore segnalacelo.

Segui questa discussione

Advertisement

Ti potrebbe interessare anche

ChatGPT a breve vi aiuterà a trovare lavoro
3

Hardware

ChatGPT a breve vi aiuterà a trovare lavoro

Di Andrea Maiellano
Il CES 2026 ha mostrato i problemi del settore PC
3

CES 2026

Il CES 2026 ha mostrato i problemi del settore PC

Di Andrea Maiellano
I robot più incredibili del CES 2026 ci mostrano come sarà il nostro futuro
3

CES 2026

I robot più incredibili del CES 2026 ci mostrano come sarà il nostro futuro

Di Andrea Maiellano
Il computer a palle da biliardo e il calcolo reversibile
2

Hardware

Il computer a palle da biliardo e il calcolo reversibile

Di Andrea Maiellano
20 anni di MacBook Pro fra innovazione e rivoluzione
1

Speciale

20 anni di MacBook Pro fra innovazione e rivoluzione

Di Andrea Maiellano

Advertisement

Advertisement

Footer
Tom's Hardware Logo

 
Contatti
  • Contattaci
  • Feed RSS
Legale
  • Chi siamo
  • Privacy
  • Cookie
  • Affiliazione Commerciale
Altri link
  • Forum
Il Network 3Labs Network Logo
  • Tom's Hardware
  • SpazioGames
  • CulturaPop
  • Data4Biz
  • TechRadar
  • SosHomeGarden
  • Aibay

Tom's Hardware - Testata giornalistica associata all'USPI Unione Stampa Periodica Italiana, registrata presso il Tribunale di Milano, nr. 285 del 9/9/2013 - Direttore: Andrea Ferrario

3LABS S.R.L. • Via Pietro Paleocapa 1 - Milano (MI) 20121
CF/P.IVA: 04146420965 - REA: MI - 1729249 - Capitale Sociale: 10.000 euro

© 2026 3Labs Srl. Tutti i diritti riservati.