ChatGPT si sta rincretinendo? Ci sono alcuni segnali preoccupanti

Uno studio condotto da ricercatori di Stanford mostra un calo delle prestazioni del chatbot di OpenAI

Avatar di Valerio Porcu

a cura di Valerio Porcu

Senior Editor

ChatGPT è disponibile al pubblico da meno di un anno, e ormai sono pochi quelli che non hanno fatto almeno un esperimento con questo chatbot avanzato o una sua versione alternativa.

All’inizio ci lasciava a bocca aperta, poi abbiamo iniziato a capire che fa cose fantastiche ma anche con tanti errori. E ora pare che gli errori e le imprecisioni stiano aumentando, mentre sta calando velocemente la qualità generale delle produzioni di ChatGPT.

Lo suggerisce il documento "How Is ChatGPT's Behavior Changing over Time?" di Lingjiao Chen, Matei Zaharia e James Zou dell'Università di Stanford e dell'UC Berkley. Nella loro ricerca, gli scienziato hanno messo a confronto le versioni di marzo e giugno di ChatGPT - due aggiornamenti diversi.

Hanno messo alla prova il chatbot con diversi test, tra cui

  • Risolvere problemi matematici
  • Rispondere a domande delicate/pericolose
  • Generazione di codice
  • Ragionamento visivo

Il risultato non è solo una differenza tra i due modelli, che sarebbe normale se il modello più recente fosse migliore. In alcuni casi infatti emerge un peggioramento della qualità. Per esempio, la versione Marzo 2023 di GPT-4 si è rivelato migliore nell’identificare numeri primi rispetto alla versione Giugno 2023, ma è vero il contrario per ChatGPT-3.5.

"L'accuratezza del GPT-4 è scesa dal 97,6% di marzo al 2,4% di giugno, mentre l'accuratezza del GPT-3.5 è migliorata notevolmente, passando dal 7,4% all'86,8%. Inoltre, la risposta di GPT-4 è diventata molto più compatta: la sua verbosità media (numero di caratteri generati) è diminuita da 821,2 a marzo a 3,8 a giugno. D'altra parte, la lunghezza delle risposte del GPT-3.5 è cresciuta di circa il 40%. Anche la sovrapposizione delle risposte tra le versioni di marzo e giugno è stata minima per entrambi i servizi", hanno dichiarato i ricercatori di Stanford.

Si nota poi che OpenAI ha rafforzato controlli e limiti: entrambi i modelli rifiutano di affrontare temi delicati nelle versioni di giugno, mentre era ancora possibile ottenere delle risposte nelle versioni precedenti.

La ricerca non è conclusiva, e per il momento non si può nemmeno affermare in modo definitivo che il calo di prestazioni esista veramente. Tuttavia anche molti utenti, nelle ultime settimane e mesi, hanno avuto l’impressione che ChatGPT stesse peggiorando - non ultimo il sottoscritto.

Per ora sono solo segnali quindi, ma piuttosto convincenti. Inoltre sappiamo che OpenAI ha bisogno di ridurre i costi di gestione per creare del profitto, e quando si cerca di spendere meno spesso è la qualità a farne le spese.

Sicuramente servono altri test, che siano il più obiettivi possibili, ma se vogliamo che questi strumenti di uso quotidiano per tutti noi, qualcosa che ci possa davvero aiutare a vivere meglio, abbiamo bisogno che diventino affidabili e precisi. E ancora non ci siamo.

Immagine di copertina: imagemir