Google WaveNet dà una vera voce ai computer

La voce artificiale è piuttosto comune ma in genere risulta metallica, robotica, artificiale. Google vuole invece ottenere una riproduzione vocale che risulti realistica, umana e familiare. È un tassello importante nello sviluppo della nuova interazione tra uomo e macchina.

Avatar di Valerio Porcu

a cura di Valerio Porcu

Senior Editor

L'intelligenza artificiale di Google Deepmind ha segnato un nuovo traguardo, riuscendo a simulare la voce umana in modo naturale e realistico. Nella tecnica del text-to-speech (TTS), quella per cui il computer legge a voce alta, l'AI che ha battuto il campione mondiale di Go sembra ora in grado di riprodurre la voce umana in modo molto realistico.

Leggi anche: Google AlphaGo batte il campione del mondo di Go

Chi ha usato anche un semplice navigatore sa che oggi la voce del TTS è ovviamente artificiale. Si capisce semplicemente ascoltando che qualcuno ha registrato un grande database di parole e che il computer le mette una in fila all'altra seguendone l'ordine che appare nel testo scritto. Un sistema di parametri predefiniti permette al sistema di pronunciare parole non presenti nel database, con risultati a volte che vanno dal "quasi comprensibile" al "ridicolo".

milisecond waveform PNG

È in questo contesto che si inserisce WaveNet, la nuova tecnologia di Google Voice. Una tecnologia descritta come fully convolutional neural network, e che è capace di "modificare l'onda grezza del segnala audio un sample alla volta", come scrive Lucia Armasu su Tom's Hardware USA. "Ciò significa che per un secondo di audio WaveNet può modificare 16.000 campioni (per audio a 16 KHz), rendendo l'audio sintetizzato molto più naturale".

Leggi anche: Google, un tasto rosso per evitare un futuro alla Terminator

Durante la fase di addestramento la rete neurale lavora con registrazioni di vere voci umane. Successivamente WaveNet può campionare ciò che ha imparato e generare una lingua sintetizzata di alta qualità.

mos2 width 1500

Come si può intuire, gestire 16.000 campioni al secondo richiede grandi risorse. Quel tipo di potenza di cui solo un'azienda colossale può disporre, ma secondo Google è un investimento necessario per ottenere un linguaggio naturale.

Leggi anche: Google compra Deepmind per fare macchine senzienti

Per verificare il risultato Google ha chiesto a degli esseri umani di giudicare la lingua prodotta da WaveNet, che si è avvicinata molto a quella dei veri esseri umani. Soprattutto però il risultato è nettamente migliore rispetto a quello delle tecnologie precedenti.

Perché è così importante che i computer ci parlino in modo da sembrare umani? Beh, non è tanto il fatto che sembrino persone, perché in linea di massima sappiamo di avere a che fare con una macchina. L'interazione vocale con la macchina però innesca un meccanismo che è anche (forse soprattutto) emotivo in noi, ed è importante.

Nell'immediato futuro avremo molte intelligenze artificiali nelle nostre vite, che guideranno le nostre auto, gestiranno la nostra agenda o ci aiuteranno a occuparci della casa. Affinché le persone di fidino e si trovino a proprio agio con questi sistemi è importante che la loro voce risulti il più amichevole possibile.