ELIZA, il chatbot degli anni 60 batte ChatGPT-3.5 nel test di Turing

Un nuovo studio ha fatto messo alla prova ChatGPT 3.5 e 4 e il chatbot ELIZA al test di Turing, e i risultati sono a dir poco sorprendenti.

Avatar di Giulia Serena

a cura di Giulia Serena

Editor

Due ricercatori dell'Università della California, San Diego, hanno esaminato le capacità di ChatGPT-4 di OpenAI confrontandolo con partecipanti umani, GPT-3.5 ed ELIZA, un programma basato su regole degli anni '60, per valutare la sua abilità nel convincere gli interrogatori di essere umano. Nonostante il GPT-4 non abbia superato il test, il risultato più sorprendente è stato che gli umani hanno identificato correttamente altri umani solo nel 63% delle interazioni, mentre ELIZA ha superato il modello IA che alimenta la versione gratuita di ChatGPT.

Il test di Turing, concepito da Alan Turing nel 1950 come "The Imitation Game", è un benchmark controverso per valutare la capacità di una macchina di imitare la conversazione umana. Nel recente studio, i ricercatori hanno ospitato un'implementazione del test di Turing online, coinvolgendo 652 partecipanti in sessioni con modelli IA, compresi GPT-4, GPT-3.5 ed ELIZA. Sorprendentemente, ELIZA ha ottenuto un tasso di successo del 27%, superando GPT-3.5 (14%) ma posizionandosi dietro GPT-4 (41%) e gli umani.

GPT-3.5, il modello di base dietro la versione gratuita di ChatGPT, è stato condizionato a non presentarsi come umano, spiegando in parte la sua performance inferiore. GPT-4, nonostante non abbia superato il test di Turing, ha mostrato risultati promettenti, ma gli autori suggeriscono che con il giusto design della provocazione potrebbe ottenere migliori risultati. Tuttavia, la sfida sta nel creare provocazioni che mimino la sottigliezza dello stile di conversazione umano.

Gli interrogatori umani, che hanno giocato il ruolo di giudici nel test, hanno utilizzato strategie come piccole conversazioni, domande su eventi attuali e l'accusa diretta al testimone di essere un modello IA. I partecipanti hanno basato le loro decisioni principalmente su stile linguistico e attributi socio-emotivi anziché solo sull'intelligenza percepita. Anche se il 63% di successo nel riconoscere altri umani potrebbe indicare limitazioni del test di Turing stesso, gli autori ritengono che il test mantenga rilevanza per misurare l'interazione sociale fluida e l'inganno.

In conclusione, sebbene GPT-4 non abbia superato il test di Turing, il suo potenziale resta elevato, ma la sfida persiste nell'elaborare provocazioni che catturino la sottigliezza della conversazione umana. Nel contesto di una società futura in cui le persone potrebbero usare modelli IA per ingannare gli altri, la comprensione delle limitazioni e delle potenzialità di tali sistemi è essenziale.