ChatGPT sbaglia il 50% delle domande di programmazione, altro che rubare il lavoro

Un recente studio condotto dall'Università di Purdue, in collaborazione con The Reg, ha esaminato le capacità di ChatGPT, l'intelligenza artificiale sviluppato da OpenAI, nell'affrontare domande prese da Stack Overflow.

Coinvolgendo 517 quesiti, e una dozzina di partecipanti volontari, lo studio ha analizzato non solo la correttezza delle risposte ma anche la coerenza, l'esaustività e la concisione delle stesse. In aggiunta, il team di ricerca ha valutato lo stile linguistico e il sentiment delle risposte prodotte dall'IA.

Tuttavia, i risultati non sono stati entusiasmanti per ChatGPT. L'IA di OpenAI è riuscita a rispondere correttamente solamente al 48% delle domande, mentre il 77% delle risposte è stato definito "prolisso".

Ciò che emerge, e che risulta particolarmente interessante, è il fatto che la completezza delle risposte di ChatGPT ,e il suo stile linguistico ben strutturato, hanno portato quasi il 40% dei partecipanti a preferire comunque le sue risposte. Purtroppo, però, queste risposte erano alla pari dei monologhi dei "venditori di fumo", risultando, per l'appunto, errate per il 52%.

Secondo quanto riportato dal documento redatto dai ricercatori Samia Kabir, David Udo-Imeh, Bonan Kou e dal professore assistente Tianyi Zhang: "Durante il nostro studio, abbiamo osservato che solo quando l'errore nella risposta di ChatGPT è evidente, gli utenti riescono a identificarlo. Quando, invece, l'errore non è facilmente verificabile, o richiede una particolare conoscenza in merito a uno specifico argomento, gli utenti spesso non riescono a identificare l'incorrettezza, sottovalutando il grado di errore nella risposta."

Inoltre, persino quando la risposta di ChatGPT era chiaramente errata, due dei 12 partecipanti l'hanno comunque preferita grazie al tono piacevole, sicuro e positivo proposto dall'IA. La completezza delle risposte e lo stile di scrittura, simile a quello di un manuale, hanno infatti contribuito a far apparire corrette quasi tutte le risposte inesatte agli occhi di alcuni dei volontari.

Il documento, inoltre, delinea come molte risposte errate siano dovute all'incapacità di ChatGPT di comprendere il contesto sottostante della domanda posta, indicando come una domanda diretta, chiara e priva di sottotesto, riceverà una una risposta corretta nella, quasi, totalità dei casi.

La questione della correttezza delle risposte offerte da IA generative risulta, comunque, molto rilevante nell'industria al punto che i proprietari delle IA hanno iniziato a includere degli avvertimenti riguardo alla possibilità che le risposte fornite possano essere potenzialmente errate.

Anche Google ha messo in guardia i propri dipendenti sui rischi dei chatbot, incluso il suo Bard, e li ha esortati ad evitare l'uso diretto del codice generato da questi servizi. L'azienda ha spiegato che Bard può fornire suggerimenti di codice indesiderati ma che, comunque, risulterà un ottimo supporto per i programmatori. Nel frattempo, aziende come Apple, Amazon e Samsung, hanno vietato completamente l'uso di ChatGPT ai propri dipendenti.