Tacotron 2, una voce umana per Google Assistant

Tacotron 2 è il nuovo sistema text-to-speech messo a punto da Google grazie a reti neurali e apprendimento profondo, virtualmente indistinguibile da una voce umana. Sarà impiegato per migliorare ulteriormente Google Assistant.

Avatar di Alessandro Crea

a cura di Alessandro Crea

Un articolo pubblicato dalla Cornell University illustra nel dettaglio il funzionamento di Tacotron 2, un innovativo sistema di text-to-speech messo a punto da Google grazie al vasto impiego di reti neurali e tecniche di deep learning. In grado di riprodurre perfettamente la voce umana, Tacotron 2 sarà utilizzato in futuro per migliorare ulteriormente l'assistente digitale Google Assistant.

Tacotron 2 al momento esiste solo in versione femminile, ma grazie alla capacità di tradurre il testo in uno spettrogramma analizzandolo poi tramite WaveNet, sistema sviluppato dal laboratorio di ricerca sull'AI DeepMind acquistato da Alphabet nel 2016, riesce a tradurre il grafico in una traccia audio di estrema naturalezza.

17 ways technology will change our lives by 2050

Tacotron 2 infatti sarebbe in grado di leggere ad alta voce parole e nomi complessi, interpretare la punteggiatura e enfatizzare le parole di particolare importanza, presenti nel testo, ad esempio quelle che iniziano con una maiuscola.

Recandovi a questo indirizzo potrete ascoltare diversi campioni di frasi complesse e articolate, lette da Tacotron 2 e poi alcune comparative in cui la stessa frase è letta sia da Tacotron 2 che da una persona reale: i risultati sono sbalorditivi e stabilire qual è la frase letta da un essere umano è davvero difficile. Al momento non ci sono però indicazioni precise riguardo a quando Tacotron 2 sarà integrato in Google Assistant, anche se, stando ai risultati, non sembra che manchi ancora molto alla maturità definitiva.