OpenAI può clonare una voce in soli 15 secondi

OpenAI ha recentemente introdotto un nuovo strumento chiamato Voice Engine, capace di clonare voci analizzando un breve campione audio di soli 15 secondi. Questa tecnologia rappresenta un'espansione dell'API preesistente di text-to-speech dell'azienda e promette di generare un parlato naturale con voci emotive e realistiche.

Il processo di sviluppo del Voice Engine è iniziato nel 2022 e ha raggiunto una fase di anteprima su piccola scala. OpenAI ha già impiegato una versione di questo strumento per alimentare le voci predefinite nell'attuale API di text-to-speech e nella funzione Read Aloud.

In un periodo in cui le IA minacciano sempre di più gli artisti, la clonazione vocale potrebbe aver ripercussioni importanti nel settore del doppiaggio.

Sono disponibili diversi esempi sul blog ufficiale dell'azienda che mostrano quanto le voci generate siano simili alla realtà.

Secondo OpenAI, questa tecnologia può avere molteplici utilizzi, tra cui l'assistenza alla lettura, la traduzione linguistica e il supporto a coloro che soffrono di disturbi del linguaggio.

Si menziona un programma pilota dell'Università Brown che ha utilizzato con successo un clone del Voice Engine per aiutare un paziente con problemi di linguaggio.

Tuttavia, nonostante i potenziali vantaggi, sorgono gravi preoccupazioni riguardo all'abuso della tecnologia per creare deepfake, ovvero falsificazioni audiovisive. Per questo motivo, Voice Engine non è ancora pronto per un lancio completo, in quanto sono necessarie misure di sicurezza aggiuntive per garantire la privacy degli utenti.

OpenAI ammette che ci sono rischi significativi associati a questa tecnologia, soprattutto in un periodo di elezioni. Per mitigare tali rischi, l'azienda sta collaborando con partner nazionali e internazionali per ottenere feedback e assicurare un lancio sicuro del prodotto.

Tutti i tester della preview hanno accettato le politiche di utilizzo di OpenAI, che vietano l'impersonificazione senza consenso.

L'azienda ha anche implementato misure di sicurezza, come il watermarking per tracciare l'origine dell'audio e un monitoraggio proattivo sull'utilizzo del sistema. Quando il prodotto sarà ufficialmente lanciato, ci sarà una lista di voci non consentite per evitare abusi.

Sul fronte dei prezzi, OpenAI potrebbe offrire Voice Engine a $15 per un milione di caratteri, rendendolo una scelta conveniente per la creazione di audiolibri, speech o addirittura di doppiaggi semi-professionali. Inoltre, si fa riferimento a una versione "HD" del servizio, ma i dettagli sono ancora sconosciuti.

Fonte dell'articolo: www.engadget.com