OpenAI clona la voce con soli 15 secondi di audio

OpenAI ha condiviso i risultati di Voice Engine, un modello capace di generare audio a partire da tracce lunghe solo 15 secondi.

Avatar di Marina Londei

a cura di Marina Londei

Editor

OpenAI ha pubblicato i risultati di alcuni test condotti su Voice Engine, un modello su piccola scala in grado di generare audio imitando timbro, tono e inflessioni della voce originale.

A stupire è il fatto che al modello, pensato per essere usato anche da dispositivi con potenza computazionale contenuta, bastano solo 15 secondi per generare un audio di ottima qualità che mantiene le caratteristiche della voce originale.

I test sono cominciati alla fine dello scorso anno e hanno coinvolto una gruppo fidato di partner della compagnia. OpenAI segnala che tra le applicazioni più interessanti emerse dai primi utilizzi c'è l'assistenza alla lettura ai bambini e coloro impossibilitati a leggere, usando voci dal suono naturale capaci di rappresentare un ampio range di speaker.

Altri utilizzi comprendono la traduzione di contenuti, come video e podcast, per raggiungere più facilmente un pubblico più ampio e in ogni parte del mondo, anche mantenendo l'accento dello speaker di riferimento.

La tecnologia di OpenAI è in fase di test anche in applicazioni terapeutiche per persone affette da patologie che influenzano il linguaggio o per fornire consulenza e feedback nella lingua di preferenza.

Pexels
voce audio

I test sono stati effettuati seguendo policy molto restrittive sull'uso e la condivisione di audio per proteggere la privacy e la proprietà intellettuale degli speaker. La compagnia ha imposto ai partner di rivelare ai propri utenti che le voci che stanno ascoltando sono generate tramite IA; inoltre, OpenAI ha aggiunto una serie di misure di sicurezza, come i watermark, per tracciare l'origine degli audio generati e monitorarne l'uso. 

"Crediamo che qualsiasi diffusione della tecnologia vocale sintetica debba essere accompagnata da esperienze di autenticazione vocale che verifichino che lo speaker originale stia condividendo consapevolmente la propria voce col servizio e che ci sia un elenco di voci non consentite che rilevi e impedisca la creazione di voci troppo simili a personaggi di spicco" spiega la compagnia.

Visti i rischi associati alla clonazione delle voci, OpenAI ha scelto di rendere disponibile la piattaforma in preview limitata e non rilasciarla ancora pubblicamente. Prima di procedere in questo senso, la compagnia chiede ai partner e clienti di studiare a fondo nuove policy per proteggere la voce degli utenti, educarli a comprendere le capacità e i limiti della tecnologia e investire su soluzioni che aiutino a tracciare l'origine dei contenuti.