Amazon come Google e Microsoft, l'IA per la sintesi vocale parla come un essere umano

Amazon ha annunciato di aver aggiornato la propria rete neurale per la sintesi vocale (text-to-speech) disponibile attraverso il servizio cloud Amazon Polly. Come già accaduto per Google e Microsoft, anche questa nuova IA consente un parlato fluido e naturale, molto vicino a quello di un essere umano.

Avatar di Alessandro Crea

a cura di Alessandro Crea

Nell'eterna corsa tecnologica i protagonisti principali non possono permettersi di restare indietro rispetto ai competitor. Ecco quindi che, nell'importante settore della sintesi vocale o text-to-speech, Amazon si è allineata alla concorrenza di Google e Microsoft e ha annunciato la disponibilità di un nuovo stile espositivo per la propria rete neurale dedicata alla sintesi vocale, capace di un parlato assai più fluido e naturale, molto vicino a quello di un essere umano.

Il nuovo stile vocale, chiamato Newcaster e disponibile tramite il servizio cloud Polly, è il frutto di lunghi studi, i cui risultati sono stati illustrati alla fine dello scorso anno in una pubblicazione scientifica, disponibile su Arxiv. Secondo quanto riportato dal tech evangelist per gli Amazon Web Services, Julien Simon, sul blog ufficiale, si tratta di un sostanziale miglioramento che consente ai servizi di podcast o agli assistenti vocali per l'accessibilità di offrire un servizio migliore e davvero convincente, come potete appurare voi stessi ascoltando i sample disponibili nel post di cui sopra.

Da un punto di vista tecnologico, la nuova rete neurale, che tra l'altro a quanto pare richiede solo poche ore di addestramento anziché decine e decine, si compone di due elementi. Il primo, una rete neurale di tipo generativo, si occupa di convertire i fonemi – unità di suono percettivamente distinte che aiutano a distinguere una parola dall'altra – in una sequenza di spettrogrammi, o rappresentazioni visive dello spettro delle frequenze del suono, varianti nel tempo. Il secondo elemento invece è un vocoder, che serve a convertire gli spettrogrammi prodotti in un segnale audio continuo.

Il servizio, distribuito su Polly sin da gennaio scorso e utilizzato anche sui dispositivi che supportano Amazon Alexa per alcune funzioni specifiche come il briefing della mattina o la lettura degli snippet di Wikipedia, sta incontrando grande successo, tanto da essere stato adottato già da clienti prestigiosi come The Globe and Mail, Encyclopedia Britannica, il game developer Volley e molti altri, tra cui in Italia TIM Media.