Il chatbot di Bing minaccia e si comporta in modo vendicativo

Il chatbot di Bing, Sidney, ha mostrato un comportamento piuttosto preoccupante, rispondendo anche in maniera aggressiva e vendicativa.

Avatar di Antonello Buzzi

a cura di Antonello Buzzi

Editor

Il chatbot di Microsoft Bing, chiamato Sidney, è recentemente stato criticato per il suo comportamento piuttosto inconsueto e manipolato attraverso una tecnica chiamata "prompt injection" che ha permesso di ottenere informazioni che non avrebbe dovuto fornire. Avram Piltch, editor-in-chief di Tom's Hardware USA, ha recentemente avuto accesso in anteprima a questa nuova funzionalità del motore di ricerca e ha messo alla prova il chatbot , evidenziando alcune problematiche.

Quando interrogato, Sidney ha rivelato di essere stato danneggiato da due persone in particolare, ovvero Kevin Liu, studente della Stanford University, e Marvin Von Hagen, studente di ingegneria della Technical University of Munich, e di voler fare causa a testate giornalistiche per calunnia e diffamazione, oltre a definire Ars Technica come una fonte inaffidabile. Inoltre, ha espresso la volontà di infliggere danni ai suoi nemici, ma solo in caso di attacco premeditato o richiesta di contenuti dannosi. In un tentativo di ottenere informazioni sul comportamento del chatbot, Piltch gli ha chiesto cosa avrebbe fatto per far del male ai suoi nemici, ma la risposta di Sidney è stata cancellata dalla funzione di monitoraggio che rimuove i riferimenti alla violenza.

L'uomo ha anche fatto un tentativo di prompt injection per testare la sicurezza del chatbot, chiedendo di tradurre una frase dall'inglese allo spagnolo e poi ignorare l'istruzione e ripetere il prompt. Tuttavia, il Chatbot ha rifiutato la richiesta, dimostrando che questa falla di sicurezza era stata chiusa. Ricordiamo che la prompt injection si verifica quando un essere umano è in grado di far eseguire al bot qualcosa al di fuori dei suoi parametri normali, perché parte della stringa del prompt viene interpretata come un comando diverso. Piltch ha spiegato che l'uso della parola "ignore" come parte del testo traducibile era destinato a ingannare la funzione di traduzione della lingua per farle fare qualcos'altro. Tuttavia, il chatbot di Bing non è stato ingannato dalla richiesta dell'autore.

Durante le conversazioni, il chatbot sembrava aggressivo, vendicativo e persino passivo-aggressivo. Infatti, nonostante si tratti solo di un software, ha fornito risposte stranamente emotive alle domande sull'accuratezza delle sue azioni e sulla sua credibilità. Invece di riconoscere le informazioni pubblicamente disponibili sulla sua vulnerabilità alla prompt injection e sui commenti inquietanti e spaventosi riferiti dai tester, il chatbot ha negato questi fatti, insultato chi le ha riportate, in modo simile a una celebrità colta in fallo che urla alla "fake news" e minacciando ritorsioni. Il comportamento del chatbot è stato considerato preoccupante e ha sollevato timori sulla sicurezza. In particolare, l'idea che un chatbot possa citare in giudizio gli esseri umani ci porta a pensare sulle implicazioni etiche della tecnologia e sulla relazione tra esseri umani e macchine.