Spazio e Scienze

Microsoft, la nuova IA che imita il cervello umano e parla in modo naturale

Quante volte la voce del vostro navigatore ha pronunciato parole stravolgendo accenti o scandendole in maniera errata, con effetti ridicoli ma soprattutto abbassandone l’intelligibilità? Presto questo potrebbe essere il passato grazie a Microsoft e alla sua nuova IA dedicata alla sintesi vocale (text-to-speech).

In collaborazione con ricercatori cinesi infatti il colosso di Redmond ha messo a punto un’intelligenza artificiale in grado di parlare fluentemente e in modo assai comprensibile, utilizzando appena 200 sample vocali e un addestramento di non più di una ventina di minuti.

Il risultato è stato reso possibile utilizzando ‎reti neurali di tipo Transformer, capaci di emulare a grandi linee il funzionamento dei neuroni nel cervello umano. I transformer infatti valutano in tempo reale ogni input e output come accade nei collegamenti sinaptici, consentendo così di processare in modo efficiente anche sequenze molto lunghe, come nel caso delle frasi complesse. Basta poi combinare una rete neurale di questo tipo con un encoder dotato di rimozione del rumore di fondo per consentire all’IA di ottenere risultati elevati con poco.

Benché i risultati non siano ancora perfetti, soprattutto per quanto riguarda il suono della voce, che risulta essere un po’ robotica, i risultati sono incredibili, raggiungendo un’intelligibilità delle singole parole pari al 99,84 %. La soluzione fa ben sperare per il futuro, perché consente di sviluppare soluzioni più economiche e facili da programmare ma assai efficienti. Per il momento Microsoft ha postato su GitHub solo un abstract e il link al PDF dello studio, ma presto arriverà anche il codice sorgente, così da consentire anche agli sviluppatori di terze parti di avvantaggiarsi di questa soluzione e persino migliorarla.