Le “voci digitali” sono voci sintetiche utilizzate, ormai, praticamente ovunque: sui mezzi di trasporto, al telefono, nei centri commerciali, in offerte pubblicitarie. Ed alcune sembrano così realistiche da far credere agli utenti che a parlare sia davvero una persona in carne ed ossa.

Le sintesi vocali iniziano ad essere studiate e sviluppate intorno agli anni Settanta con strumenti informatici che prevedevano un’unione di tanti piccoli pezzi di voci registrate, in gergo tecnico “difoni”. Solo una volta messi in fila questi pezzetti, si interveniva successivamente per sistemare l’intonazione della frase e la durata di alcune parole, al fine di rendere la catena di difoni più simile possibile alla voce umana.

Dai difoni si è poi passati alle unità variabili, che potevano essere costituite da pezzi più piccoli di un fonema, ma anche da intere parole e frasi, rendendo così la voce ottenuta molto più “umanizzata”.

Photo credit - depositphotos.com

Nel nuovo Millennio la tecnologia ha fatto passi da gigante anche in questo campo, ed ora, mediante sintetizzatori vocali che si basano su sofisticati algoritmi, è possibile riprodurre fedelmente voci umane, sulla base di qualche minuto di registrazione, tracciando una sorta di “dna” del timbro, e poi riproducibile in una casistica infinita di frasi.

Che cos’è di preciso un sintetizzatore vocale?

Un sintetizzatore vocale è uno strumento basato su una tecnica chiamata “sintesi vocale”, che permette di riprodurre fedelmente, tramite software, il suono della voce umana.

Se i primi sintetizzatori erano meramente in grado di riprodurre voci metalliche e poco realistiche, quelli di ultima generazione permettono di creare un vero e proprio “clone sonoro” della voce umana, capace di parlare al posto nostro.

Vi sono sintetizzatori vocali che si basano su algoritmi così sofisticati che riescono perfino a simulare il tono della voce e a riprodurre emozioni quali rabbia, contentezza e tristezza.

Tutto ciò è possibile con una registrazione della voce che varia da qualche minuto, per i software più sofisticati, ad una ventina di minuti al massimo.

Le implicazioni negative: fake news, truffe e violazioni

I sintetizzatori vocali, tenendo anche conto del progresso tecnologico, possono avere un impatto dirompente sulla quotidianità.

Il primo problema che si pone in relazione all’utilizzo di tali tecnologie vocali riguarda le “fake news”, ovvero quelle informazioni inventate, false o distorte, diffuse con il deliberato intento di disinformare attraverso i mezzi di informazione.

Infatti, questi dispositivi, se applicati alla voce di personaggi famosi, potrebbero creare scompiglio nel mondo dell’informazione. Si pensi, quale esempio paradossale, ad un audio sintetizzato con la voce di Trump che dichiara guerra nucleare alla Corea del Nord. Questa informazione, fittiziamente costruita con il sintetizzatore vocale, potrebbe potenzialmente diventare una cassa di risonanza mediatica di grave portata.

Un altro prevedibile ed illegittimo utilizzo di tale tecnologia potrebbe riguardare truffe telefoniche e furti d’identità.

Proprio qualche mese fa, infatti, in Inghilterra, l’amministratore delegato di un’azienda di energia, di proprietà di un’altra azienda tedesca, ha ricevuto l’ordine dal suo superiore di fare urgentemente un bonifico verso un fornitore ungherese. Tale intimazione, però, non proveniva dal direttore dell’azienda tedesca, ma da un sintetizzatore vocale che ne aveva riprodotto fedelmente il timbro di voce.

Questo utilizzo truffaldino dei softwares di “clonazione vocale” si può verificare anche e a maggior ragione nei confronti di un bacino di utenza più comune. Basti pensare che da una semplice chiacchierata telefonica un call center potrebbe conseguire l’assenso sintetizzato dell’utente per una proposta commerciale telefonica.

Photo credit - depositphotos.com

L’uso illecito dei sintetizzatori vocali può ancora essere utilizzato per accedere a tutti quei sistemi di sicurezza o di autenticazione che si fondano sull’analisi vocale, con conseguente violazione delle informazioni o dei dati che tali sistemi erano demandati a proteggere.

Le implicazioni positive: gli speech aid

Occorre, però, dall’altro lato, fare menzione all’enorme potenziale che i sintetizzatori vocali possono avere nel campo della ricerca a favore delle disabilità.

A questo proposito occorre segnalare che una start up italiana, partita nel 2013, ha sviluppato una tecnologia innovativa a tutela della disabilità derivante da patologie gravi, quali la SLA.

Il sintetizzatore vocale che questa start up ha progettato, infatti, ha come finalità il mantenimento dell’identità vocale delle persone affette da invalidità grave, per migliorarne la qualità della vita.

Le implicazioni giuridiche: la tutela della privacy

L’utilizzo dei sintetizzatori vocali si interseca con una delle tutele più stringenti che il Regolamento europeo (GDPR, Reg. UE n. 679/2016) e il Codice Privacy (d.lgs 196/2003) apprestano ad una particolare tipologia di dati cosiddetti sensibili: i dati biometrici. Questi ultimi permettono l’identificazione univoca del soggetto cui il dato appartiene e l’impronta vocale rientra a pieno titolo in tale categoria di dati. Per questo motivo devono essere trattati con le specifiche garanzie previste dall’art. 9 GDPR e dall’art. 2-septies Codice Privacy.

La prima disposizione citata prevede che i dati biometrici e, dunque, anche l’impronta vocale, possano essere trattata esclusivamente in un serie tassativa di ipotesi, che sono suscettibili di essere limitate ulteriormente dalle singole legislazioni degli Stati Membri.

Queste ipotesi tassative sono: il consenso esplicito dell’interessato, un obbligo legale o un diritto del titolare del trattamento o dell’interessato in materia di lavoristica o di sicurezza sociale, un interesse vitale dell’interessato o di un’altra persona fisica o un interesse pubblico ritenuto prevalente in specifici settori.

La seconda disposizione, invece, quella prevista dal nostro Codice della Privacy, indica per il trattamento dei dati biometrici ulteriori misure di garanzie disposte dal Garante Privacy, unitamente ai casi previsti dal GDPR sopra indicati.

Queste misure di garanzia dovranno essere improntate sull’evoluzione scientifica e tecnologica degli strumenti di protezione e trattamento dati, sulle linee guida del Comitato Europeo per la protezione dei dati nonché sulle migliori prassi in materia.

Photo credit - depositphotos.com

Occorre ricordare poi che, spesso, per utilizzare i sintetizzatori vocali, è necessario prestare il proprio consenso al trattamento del dato biometrico. Ciò può voler dire acconsentire all’utilizzo da parte di soggetti terzi di uno dei dati più sensibili che ci rappresentano, secondo le modalità indicate dalla privacy policy dello sviluppatore del software, fermo restando il trattamento illecito di dati sanzionato penalmente dall’art. 177 Codice Privacy.

Conclusioni

I sintetizzatori vocali, anche attraverso la continua evoluzione tecnologica, potranno essere applicati sempre più al fine di perseguire obiettivi leciti e valevoli, quali la messa a punto di speech aid, ma celano il rischio alquanto rilevante di essere utilizzati anche per fini illeciti, quali truffe e diffusione di fake news.

Ecco perché il legislatore, nazionale ed europeo, dovrebbe imporre agli sviluppatori di tali tecnologie delle misure di salvaguardia, in modo da assicurarne un uso lecito e che possa essere effettivamente rispettoso della normativa in materia di privacy.