Voci deepfake, gli umani non sono abbastanza bravi a identificarle

Un nuovo studio condotto dall'Università di Londra ha rivelato che gli esseri umani hanno difficoltà nel riconoscere i discorsi deepfake.

Avatar di Andrea Riviera

a cura di Andrea Riviera

Managing Editor

Un nuovo studio condotto dall'Università di Londra (UCL) ha rivelato che gli esseri umani hanno difficoltà nel riconoscere discorsi deepfake generati artificialmente.  Il primo studio del genere ad analizzare la capacità di rilevare discorsi generati artificialmente in una lingua diversa dall'inglese, è stato pubblicato sulla rivista scientifica PLOS ONE. I deepfake, non sono altro che specifici contenuti multimediali sintetici progettati per somigliare alla voce di una persona reale, rientrano nell'ambito dell'intelligenza artificiale generativa (IA), una forma di apprendimento automatico (ML) che addestra un algoritmo a riprodurre suoni o immagini originali.

Il team di ricerca dell'UCL ha utilizzato un algoritmo text-to-speech (TTS) addestrato su due diversi set di dati pubblicamente disponibili, uno in inglese e uno in mandarino, per generare 50 campioni di discorsi deepfake in entrambe le lingue. I campioni generati artificialmente sono stati attentamente selezionati per evitare qualsiasi somiglianza con gli input originali utilizzati per l'addestramento dell'algoritmo.

Successivamente, i campioni di discorsi generati artificialmente e quelli di discorsi genuini sono stati riprodotti per 529 partecipanti al fine di valutare la capacità umana di riconoscere la differenza tra il reale e il falso. I risultati hanno dimostrato che i partecipanti sono stati in grado di individuare il discorso deepfake il 73% delle volte, con un miglioramento marginale nell'accuratezza dopo aver ricevuto una formazione specifica per riconoscere gli aspetti distintivi dei discorsi generati artificialmente. Per quanto il 73% delle volte possa sembrarvi tanto, in realtà è un numero che spaventa non poco la UCL, soprattutto se questo numero è estrapolato in un contesto dove le persone coinvolte sono state addirittura addestrate.

Kimberly Mai, della facoltà di Informatica dell'UCL e prima autrice dello studio, ha sottolineato che le scoperte confermano che gli umani stanno cominciando ad avere difficoltà nel rilevare i discorsi deepfake, anche quando vengono formati per farlo. La ricerca ha utilizzato algoritmi relativamente datati, sollevando interrogativi sulle capacità di individuare discorsi generati con la tecnologia più sofisticata disponibile oggi e in futuro.

L'avvento di algoritmi di deepfake sempre più avanzati e l'ampia disponibilità di strumenti open-source hanno sollevato preoccupazioni riguardo il loro possibile utilizzo da parte di criminali e stati nazionali per danneggiare individui e società. La tecnologia di generazione audio dell'IA offre benefici, come una maggiore accessibilità per coloro la cui capacità di parlare è limitata o compromessa da malattie, ma le minacce legate all'abuso di questa tecnologia sono innegabili.

I ricercatori dell'UCL vedono la necessità di sviluppare sistemi automatizzati di rilevamento del discorso deepfake, al fine di contrastare la minaccia di contenuti audio e visivi generati artificialmente. Il professore Lewis Griffin, coautore dello studio, sottolinea che mentre è importante prepararsi per affrontare gli abusi, è altrettanto cruciale riconoscere le potenzialità positive offerte da questa tecnologia emergente.

Il prossimo passo per la comunità scientifica sarà quindi quello di perfezionare i sistemi di rilevamento per garantire che l'IA generativa sia utilizzata in modo responsabile e per prevenire potenziali danni a individui e società.