Ti falsificano con la faccia e la voce in un attimo, la nuova tecnologia Microsoft fa paura

Microsoft ha presentato VASA-1, un modello di intelligenza artificiale (IA) capace di creare video animati sincronizzati di una persona che parla o canta partendo da una singola foto e una traccia audio esistente.

Avatar di Valerio Porcu

a cura di Valerio Porcu

Senior Editor

Microsoft ha svelato il suo nuovo progetto, VASA-1, un modello di intelligenza artificiale che solleva preoccupazioni sulla manipolazione dei media. Utilizzando un'unica foto e una traccia audio, VASA-1 può creare video di una persona che parla o canta. 

Questa tecnologia potrebbe alimentare avatar virtuali senza bisogno di flussi video in diretta, consentendo a chiunque abbia strumenti simili di far dire a una foto di una persona trovata online ciò che desidera. Il risultato è piuttosto credibile, sicuramente in grado di convincere il pubblico sui social media, ma a uno sguardo approfondito sorge subito il sospetto che ci sia qualcosa di strano. Il problema è che pochi hanno quel tipo di sguardo o hanno voglia di controllare da vicino. 

Per il momento però ci sono notevoli limiti tecnici che impediscono di fare video troppo credibili. Il framework VASA (acronimo di "Visual Affective Skills Animator"), infatti, sfrutta l'apprendimento automatico per analizzare un'immagine statica e una clip audio. Questo permette di generare un video realistico con espressioni facciali precise, movimenti della testa e sincronizzazione labiale all'audio, senza clonare o simulare voci. Il modello VASA-1, addestrato su un vasto dataset di celebrità, può generare video fino a 40 frame al secondo con risoluzione di 512x512 pixel, potenzialmente utilizzabili in applicazioni in tempo reale come le videoconferenze.

possibili utilizzi di questa tecnologia vanno dal mondo educativo a quello aziendale, dalle lezioni universitarie alle conferenze; probabilmente è in questi ambiti che Microsoft proporrà una futura versione commerciale di VASA-1. E naturalmente lo si potrebbe usare per creare personaggi virtuali con account sui vari social media. 

Inevitabilmente c’è preoccupazione per un possibile uso improprio - ma è praticamente una certezza. Quello più ovvio è la creazione di video con persone note che fanno e dicono cose inventate: un problema che dallo schermo innocente fino alle interferenze politiche, senza trascurare la pornografia non consensuale. Ma è anche possibile creare personaggi digitali e poi usarli per diffondere misinformazione e disinformazione. 

In tutto il mondo c’è più o meno la stessa preoccupazione, e cioè che la circolazione di informazioni false e incontrollate finisca per impedire ai cittadini di esprimere il proprio voto nel modo migliore. Sebbene VASA-1 sia attualmente solo una dimostrazione di ricerca, è probabile che tecnologie simili diventino disponibili e migliorino in realismo nel tempo, sollevando importanti questioni etiche e di sicurezza nell'era digitale in continua evoluzione.