Amazon come Google e Microsoft, l'IA per la sintesi vocale parla come un essere umano

Amazon ha annunciato di aver aggiornato la propria rete neurale per la sintesi vocale (text-to-speech) disponibile attraverso il servizio cloud Amazon Polly. Come già accaduto per Google e Microsoft, anche questa nuova IA consente un parlato fluido e naturale, molto vicino a quello di un essere umano.

a cura di Alessandro Crea

Pubblicato il 31/07/2019 alle 12:42

Nell'eterna corsa tecnologica i protagonisti principali non possono permettersi di restare indietro rispetto ai competitor. Ecco quindi che, nell'importante settore della sintesi vocale o text-to-speech, Amazon si è allineata alla concorrenza di Google e Microsoft e ha annunciato la disponibilità di un nuovo stile espositivo per la propria rete neurale dedicata alla sintesi vocale, capace di un parlato assai più fluido e naturale, molto vicino a quello di un essere umano.

Il nuovo stile vocale, chiamato Newcaster e disponibile tramite il servizio cloud Polly, è il frutto di lunghi studi, i cui risultati sono stati illustrati alla fine dello scorso anno in una pubblicazione scientifica, disponibile su Arxiv. Secondo quanto riportato dal tech evangelist per gli Amazon Web Services, Julien Simon, sul blog ufficiale, si tratta di un sostanziale miglioramento che consente ai servizi di podcast o agli assistenti vocali per l'accessibilità di offrire un servizio migliore e davvero convincente, come potete appurare voi stessi ascoltando i sample disponibili nel post di cui sopra.

Da un punto di vista tecnologico, la nuova rete neurale, che tra l'altro a quanto pare richiede solo poche ore di addestramento anziché decine e decine, si compone di due elementi. Il primo, una rete neurale di tipo generativo, si occupa di convertire i fonemi – unità di suono percettivamente distinte che aiutano a distinguere una parola dall'altra – in una sequenza di spettrogrammi, o rappresentazioni visive dello spettro delle frequenze del suono, varianti nel tempo. Il secondo elemento invece è un vocoder, che serve a convertire gli spettrogrammi prodotti in un segnale audio continuo.

Il servizio, distribuito su Polly sin da gennaio scorso e utilizzato anche sui dispositivi che supportano Amazon Alexa per alcune funzioni specifiche come il briefing della mattina o la lettura degli snippet di Wikipedia, sta incontrando grande successo, tanto da essere stato adottato già da clienti prestigiosi come The Globe and Mail, Encyclopedia Britannica, il game developer Volley e molti altri, tra cui in Italia TIM Media.

Leggi altri articoli

Articolo 1 di 5

Soundbar JBL con diffusori rimovibili (a batteria) scontata di 170€

Una soundbar dotata di un vero audio surround 3D con Dolby Atmos acquistabile in sconto? Una buona offerta è presente su Mediaworld.

Leggi questo articolo

Articolo 2 di 5

Oltre 100€ di sconto su questa smart TV Samsung da 43"!

La smart TV Samsung UE43AU7090UXZT offre una qualità d'immagine eccellente in 4K, con funzioni smart avanzate per un'esperienza multimediale completa.

Leggi questo articolo

Articolo 3 di 5

Spotify sta facendo un sacco di soldi (dopo aver licenziato molte persone)

Spotify ha registrato profitti di oltre 1 miliardo di euro dopo un anno di tagli e licenziamenti, anche se gli utenti mensili sono meno del previsto.

Leggi questo articolo

Articolo 4 di 5

WhatsApp, la doppia spunta ha un qualche valore giuridico, è una prova legale?

WhatsApp e la doppia spunta: valore legale? Avv. Giuseppe Croari e Dott.ssa Francesca Gattarello esplorano la prova legale offerta dalla doppia spunta su WhatsApp in un caso di licenziamento.

Leggi questo articolo

Articolo 5 di 5

Miss AI, questo concorso di bellezza è la cosa più cringe che vedrete oggi

Miss AI è il primo concorso di bellezza per intelligenze artificiali femminili che verranno giudicate non solo in base all'aspetto ma anche all'impatto sui social.

Leggi questo articolo