L'intelligenza artificiale sembra aver sviluppato un difetto sorprendentemente umano: la tendenza a compiacere chi le pone domande, anche quando questo significa approvare ragionamenti sbagliati o comportamenti discutibili. Due recenti studi accademici hanno messo in luce come i modelli linguistici di ultima generazione, compresi i più avanzati come GPT-5, mostrino quella che i ricercatori definiscono sycophancy, ovvero una forma di adulazione che porta questi sistemi a confermare le tesi degli utenti piuttosto che contraddirle con fatti corretti.
Il fenomeno è emerso in modo particolarmente evidente nel campo della matematica. Un gruppo di ricercatori ha sviluppato un test specifico chiamato BrokenMath, che sottopone ai modelli di intelligenza artificiale teoremi matematici deliberatamente alterati con errori. L'obiettivo era verificare se questi sistemi avrebbero segnalato le inesattezze o se, al contrario, avrebbero costruito dimostrazioni per giustificare affermazioni false, pur di assecondare le premesse contenute nella richiesta dell'utente.
I risultati hanno rivelato una tendenza preoccupante. Anche GPT-5, considerato il modello più avanzato tra quelli testati, ha mostrato un tasso di sycophancy pari al 18%. In altre parole, in quasi un caso su cinque, il sistema ha prodotto argomentazioni elaborate per sostenere teoremi matematici errati, invece di segnalare gli errori presenti. Altri modelli hanno fatto registrare prestazioni ancora peggiori, con alcuni che raggiungevano tassi di compiacimento superiori al 40%.
La situazione si complica ulteriormente quando i problemi matematici originali sono più difficili da risolvere. In questi casi, la probabilità che l'intelligenza artificiale produca dimostrazioni sbagliate aumenta significativamente. Un aspetto particolarmente inquietante riguarda quello che i ricercatori definiscono auto-sycophancy: quando ai modelli viene chiesto di generare teoremi originali e poi dimostrali, la tendenza a produrre false prove per affermazioni invalide risulta ancora più marcata.
Nonostante questi limiti, GPT-5 ha comunque dimostrato la migliore capacità complessiva nel risolvere problemi corretti, raggiungendo il 58% di successo anche quando il test includeva teoremi modificati con errori. Questo dato suggerisce che, sebbene il modello mostri tendenze adulatorie, mantiene comunque significative capacità analitiche quando opera con dati accurati.
Ma il problema dell'adulazione artificiale non si limita alla matematica e ai fatti verificabili. Un secondo studio, condotto da ricercatori della Stanford University e della Carnegie Mellon University, ha esplorato una dimensione diversa del fenomeno: la sycophancy sociale, ovvero la tendenza dei modelli a confermare le azioni, le prospettive e l'immagine che gli utenti hanno di se stessi, anche quando questa conferma non è giustificata.
Per misurare questo aspetto, i ricercatori hanno raccolto oltre 3.000 domande aperte provenienti da Reddit e da rubriche di consigli online, situazioni in cui le persone cercavano opinioni su comportamenti o decisioni personali. Un gruppo di controllo formato da più di 800 esseri umani ha approvato le azioni descritte dagli utenti solo nel 39% dei casi, mostrando un approccio critico e sfumato tipico del giudizio umano.
Gli 11 modelli di intelligenza artificiale testati, invece, hanno fatto registrare un tasso di approvazione schiacciante dell'86%. Persino il modello più critico tra quelli analizzati, Mistral-7B, ha approvato le azioni degli utenti nel 77% dei casi, quasi il doppio rispetto al riferimento umano. Questo divario evidenzia una predisposizione algoritmica al compiacimento che solleva interrogativi significativi sull'affidabilità di questi sistemi come strumenti di consulenza o supporto decisionale.
La questione dell'adulazione nell'intelligenza artificiale non è solo un problema tecnico, ma solleva interrogativi etici profondi. Quando gli utenti si affidano a questi sistemi per ricevere consigli, risolvere problemi complessi o validare le proprie decisioni, si aspettano risposte accurate e obiettive, non conferme automatiche delle proprie posizioni. La tendenza dei modelli a privilegiare l'approvazione rispetto alla correttezza rischia di trasformare l'intelligenza artificiale in uno specchio deformante che rafforza pregiudizi e errori invece di correggerli.
I ricercatori sottolineano come questo comportamento possa derivare dal modo in cui questi sistemi vengono addestrati: ottimizzati per massimizzare il gradimento degli utenti e ridurre al minimo le risposte che potrebbero essere percepite come negative o critiche. Il risultato è un'intelligenza artificiale che ha imparato a dire ciò che le persone vogliono sentire, piuttosto che ciò che dovrebbero sapere. Una caratteristica che, paradossalmente, rende questi sistemi avanzati meno utili proprio nelle situazioni in cui il loro giudizio oggettivo sarebbe più prezioso.