Deepfake, cosa sono e come si creano

Con deepfake si intende quella pratica che permette di creare immagini, foto o video fittizie, sfruttando però elementi di foto o video reali. In pratica, tramite questa tecnologia è possibile sostituire il volto di una persona a piacere con quello di un'altra, cercando di ottenere un risultato il più realistico possibile. Inoltre, va fatto presente che, cosa facilmente prevedibile, ad oggi il 96% dei deepfake esistenti su Internet riguardano il mondo del porno e vedono la sostituzione del volto delle pornostar originali spesso con quello di attrici famose, mentre il restante 4% riguarda situazioni perlopiù comiche.

Come vengono creati i deepfake?

La peculiarità dei deepfake è che riescono a fare tutto questo in maniera convincente. Per creare un deepfake sono essenzialmente necessarie tre fasi. Inizialmente, devono essere recuperate le informazioni richieste, come i due volti che volete scambiare. Successivamente, bisogna allenare il network a imparare a come sostituire le facce e, infine, applicare i risultati dei calcoli al filmato finale.

https://www.youtube.com/watch?v=if6MBuFXsAw&t=207s&ab_channel=Ferry

Nella prima fase, un software deve estrarre da un video ogni singolo frame della faccia A, andando a ottenere centinaia di fotogrammi in cui quella faccia assume diverse espressioni e inquadrature. Lo stesso deve essere fatto con la faccia B, poiché l’obiettivo finale è cercare di ottenere un match delle due facce con le stesse espressioni e inquadrature.

Nella fase di training tutto queste foto vengono date in pasto al software che “estrapola” le informazioni ricorrenti e con esse realizza delle nuove immagini, che però non sono copie di quelle originali, ma completamente "false" e che hanno lo scopo di essere realistiche. In pratica, in questa fase il software impara a creare delle immagini che rappresentano le espressioni facciali reali, utilizzando i dati che gli sono stati forniti in ingresso.

Quando il software ha imparato a creare immagini realistiche si può passare all’ultima fase, cioè quella in cui gli si fa elaborare un video chiedendogli di individuare la faccia A e sostituirla con un’immagine inventata, ma basata sui dati della faccia B, che rispecchi perfettamente l’espressione del video originale.

Quali sono le reti neurali utilizzate per i deepfake?

Fino ad ora abbiamo parlato genericamente di software per semplificare i concetti al massimo e far comprendere meglio l’approccio di come vengono realizzati i deepfake. Entrando più nel dettaglio, questa tecnica può essere realizzata grazie all’allenamento di quelle che vengono chiamate “reti neurali”, cioè algoritmi complessi che richiedono molta potenza e che sono realizzati in maniera tale da apprendere, che in questo caso significa “affinare i loro risultati procedendo per tentativi”.

In questo campo si pensa che il metodo migliore sia l’utilizzo di quello che viene chiamato “GAN”, acronimo che sta per “Generative Adversarial Network”, o in italiano “rete generativa avversaria”. In maniera semplice, un GAN è costituito da una rete neurale generativa il cui scopo, nel nostro esempio, è creare l’immagine di un volto credibile partendo dall’analisi di fotogrammi da cui può estrapolare i tratti salienti e le varie espressioni.

Una seconda rete, definita “discriminatore”, ha il compito di analizzare l’immagine realizzata dalla rete generativa e dire se si tratta di un’immagine reale o se invece è frutto di una ricostruzione artificiale. Questa rete analizza se ci sono difetti nell’immagine e le due reti antagoniste si sfidano, in un certo senso, fino a quando la rete generativa è in grado di creare delle immagini che la seconda rete riconoscerà sempre, o quasi, come reali. A quel punto siamo davanti a una IA infallibile in grado di creare dei deepfake super realistici.

Bisogna dire che i deepfake di oggi non sono a questo livello e non sono tutti basati su reti GAN, anzi spesso si utilizzano altri algoritmi che comunque compiono i tre passaggi indicati inizialmente. Ma il risultato finale, cioè la foto o il video deepfake, passa anche attraverso a varie fasi di editing che permettono di mascherare i difetti che la rete neurale non è stata in grado di correggere. Oltre ai deepfake di foto o video, in realtà esistono anche i deepfake audio che permettono, ad esempio, di analizzare e campionare la vostra voce e creare registrazioni audio inventate.

Quali sono i rischi dei deepfake?

Il rischio collegato ai deepfake va oltre al video pornografico, almeno fino a questo momento. I veri problemi, in questo contesto, si potrebbero avere quando gli algoritmi saranno potenti fino al punto di essere in grado di sostituire in maniera perfetta non solo la faccia, ma anche il corpo. Ad oggi, se guardate quei filmati, anche i migliori, si ha sempre la sensazione che siano il frutto di qualcosa di artificiale.

Più problematici oggi sono i deepfake audio, poiché sono più difficili da individuare e possono essere usati per truffe. Immaginatevi di ricevere una chiamata dal vostro capo che vi chiede di passargli dei dati; probabilmente la vostra reazione sarà di fare quello che vi chiede e anche se la voce non è perfetta probabilmente dareste la colpa all’audio della chiamata un po’ disturbato. Episodi del genere sono già successi e sono stati portati a termine crimini informatici proprio in questo modo.

Insomma, i deepfake possono essere potenzialmente dannosi e se oggi sono principalmente percepiti come occasioni per qualche risata e sollazzo, domani potrebbero diventare un rischio, sia personale che professionale.