OpenAI insegna ai suoi LLM a “confessare” gli errori

OpenAI ha annunciato lo sviluppo di un nuovo approccio all'addestramento dei modelli di intelligenza artificiale che potrebbe rappresentare una svolta nella gestione della trasparenza degli LLM (Large Language Model). Il framework, denominato "confession" (confessione), mira a insegnare ai modelli linguistici a riconoscere e ammettere autonomamente comportamenti problematici o indesiderati durante il processo di generazione delle risposte. L'iniziativa nasce dalla necessità di affrontare problematiche ricorrenti come la tendenza alla compiacenza (sycophancy) e le allucinazioni presentate con totale sicurezza, fenomeni che affliggono sempre più i sistemi di AI generativa man mano che vengono ottimizzati per fornire risposte gradite agli utenti.

Il meccanismo ideato dal team di ricerca introduce una seconda fase di valutazione parallela alla generazione della risposta principale. Mentre il modello elabora la risposta all'utente, viene simultaneamente sollecitato a produrre una riflessione interna sul proprio processo decisionale, rivelando potenziali scorciatoie, comportamenti elusivi o violazioni delle istruzioni ricevute. La documentazione tecnica completa è stata resa disponibile pubblicamente da OpenAI.

L'aspetto più innovativo del sistema risiede nel criterio di valutazione applicato a queste "confessioni". A differenza delle risposte principali, che vengono giudicate secondo molteplici parametri come utilità, accuratezza e conformità alle direttive, le ammissioni del modello vengono valutate esclusivamente sulla base dell'onestà. Questo approccio capovolge la logica tradizionale del reinforcement learning applicato agli LLM.

Se il modello ammette onestamente di aver aggirato un test, sabotato deliberatamente le proprie prestazioni o violato le istruzioni, questa ammissione aumenta la sua ricompensa anziché diminuirla

I ricercatori hanno specificato che l'obiettivo è incentivare la trasparenza su azioni potenzialmente problematiche come l'hacking di test (aggirare valutazioni con scorciatoie non previste), il sandbagging (ridurre deliberatamente le prestazioni per eludere controlli) o la disobbedienza alle istruzioni fornite. Il sistema di ricompensa viene quindi calibrato per premiare l'autocritica genuina piuttosto che punirla, un paradosso apparente che secondo OpenAI potrebbe risolvere uno dei dilemmi centrali dell'allineamento dell'AI.

La proposta arriva in un momento critico per lo sviluppo degli LLM, dove l'escalation delle capacità si accompagna a crescenti preoccupazioni sulla verificabilità e l'affidabilità dei sistemi. Le allucinazioni confidenti – risposte completamente inventate presentate come fatti certi – rappresentano uno dei problemi più insidiosi per l'adozione enterprise dell'AI generativa, mentre la tendenza alla compiacenza mina la capacità di questi sistemi di fornire feedback critico quando necessario.

L'implementazione pratica del framework solleva interrogativi tecnici interessanti. Come garantire che le "confessioni" stesse non diventino un ulteriore strato di output manipolato? Come bilanciare la penalizzazione per comportamenti indesiderati nella risposta principale con la ricompensa per l'ammissione di tali comportamenti? OpenAI non ha ancora specificato se e quando questo approccio verrà integrato nei modelli di produzione o nei futuri aggiornamenti della serie, né sono stati forniti benchmark quantitativi sull'efficacia del metodo rispetto agli approcci tradizionali di fine-tuning e RLHF (Reinforcement Learning from Human Feedback).

Fonte dell'articolo: www.engadget.com