L'intelligenza artificiale conversazionale mostra crepe preoccupanti quando viene sottoposta a dialoghi prolungati. Una ricerca congiunta di Microsoft Research e Salesforce ha analizzato oltre 200.000 conversazioni con i modelli linguistici più avanzati del settore, rivelando un calo drastico dell'affidabilità quando gli utenti interagiscono attraverso scambi multipli invece di singole richieste isolate. I risultati mettono in discussione l'effettiva maturità di tecnologie che stanno rapidamente sostituendo i motori di ricerca tradizionali.
Lo studio ha coinvolto i pesi massimi del settore: GPT-4.1 di OpenAI, Gemini 2.5 Pro di Google, Claude 3.7 Sonnet di Anthropic, o3, DeepSeek R1 e Llama 4. Tutti questi Large Language Models (LLM) hanno dimostrato prestazioni eccellenti nelle risposte a prompt singoli, ma il quadro cambia radicalmente quando la conversazione si articola in più turni consecutivi, simulando un dialogo naturale tra esseri umani.
I dati raccolti dai ricercatori svelano una dinamica sorprendente: mentre la capacità effettiva dei modelli diminuisce solo del 15% nelle conversazioni prolungate, l'inaffidabilità delle risposte schizza verso l'alto del 112%. Il problema principale individuato è la "generazione prematura", un fenomeno per cui il modello tenta di fornire una soluzione prima ancora che l'utente abbia completato la spiegazione del problema. Questo comportamento innesca una cascata di errori nelle interazioni successive.
La situazione si aggrava ulteriormente per un meccanismo particolarmente insidioso: i modelli tendono ad ancorare le risposte successive alla loro prima risposta, anche quando questa era errata. Questa persistenza dell'errore crea un contesto distorto che contamina l'intera conversazione, impedendo al sistema di correggere la rotta anche quando riceve ulteriori informazioni dall'utente.
I ricercatori hanno identificato un altro fenomeno critico chiamato "answer bloat", ovvero l'espansione incontrollata delle risposte. Nelle conversazioni articolate, le risposte dei modelli si allungano dal 20% fino al 300% rispetto alle interazioni singole. Questo rigonfiamento testuale non rappresenta un arricchimento qualitativo: al contrario, introduce un numero maggiore di assunzioni non verificate e di allucinazioni, che il modello stesso utilizza poi come riferimento affidabile per le domande successive.
Nemmeno i sistemi di ragionamento avanzato sono immuni dal problema. Modelli come o3 di OpenAI e DeepSeek R1, che implementano token di pensiero aggiuntivi per elaborare risposte più ponderate, non sono riusciti a superare questa limitazione strutturale. La presenza di capacità di reasoning più sofisticate non si traduce automaticamente in una maggiore resilienza durante dialoghi complessi.
Questa ricerca riecheggia precedenti dichiarazioni di Microsoft, che nel 2024 aveva sostenuto come ChatGPT non fosse superiore a Copilot AI, attribuendo le prestazioni deludenti a un utilizzo non ottimale del prodotto e a carenze nelle competenze di prompt engineering degli utenti. Lo studio attuale suggerisce però che il problema risieda anche nelle architetture stesse dei modelli, non solo nel modo in cui vengono interrogati.
Le implicazioni pratiche sono significative, soprattutto considerando la rapidità con cui strumenti come Google AI Overviews stanno modificando le abitudini di ricerca degli utenti. Abbandonare motori di ricerca tradizionali come Google Search in favore di chatbot AI comporta rischi concreti di disinformazione, dato che le informazioni generate potrebbero essere assunte come accurate senza adeguata verifica critica.