Microsoft, adesso il riconoscimento vocale è quasi umano

La tecnologia di riconoscimento vocale di Microsoft stabilisce un nuovo record e, con un margine di errore del 5,1%, raggiunge il livello umano.

Avatar di Alessandro Crea

a cura di Alessandro Crea

La tecnologia di riconoscimento vocale non è mai stata così accurata: il team di sviluppo Microsoft ha infatti annunciato di aver raggiunto un margine d'errore o WER (Word Error Rate) pari al 5,1%, in pratica equivalente alla capacità media umana di discernere le parole.

Si tratta di un risultato impressionante se si pensa che la comunità scientifica sta lavorando in vista di questo risultato da 25 anni e che lo scorso anno la capacità di tale tecnologia era ferma al 12% prima di precipitare al 6,3% nel settembre dello stesso anno.

riconoscimento vocale

Il risultato è stato raggiunto grazie ai crescenti investimenti nel cloud da parte del colosso di Redmond, che hanno consentito un incremento rapidissimo dei risultati e a una velocizzazione del processo di addestramento dei propri modelli acustici e linguistici.

Gli ingegneri Microsoft hanno anche pubblicato in PDF un report tecnologico in cui spiegano le complesse tecnologie impiegate per ottenere tale risultato. Senza scendere in dettagli eccessivi, gli ingegneri si sono concentrati ‎sul miglioramento dei modelli acustici e linguistici della propria rete neurale. Hanno adottato una soluzione di tipo CNN-BLSTM (Convolutional Neural Network - Bidirectional Long-Short Term Memory) che combina appunto due tipologie di reti neurali già utilizzate in passato, una di tipo convoluzionale, ispirata all'organizzazione della corteccia visiva animale e un'altra chiamata appunto bidirectional long-short-term memory.

image

La tecnologia sarà implementata nell'arco dei prossimi mesi in tutti i Servizi Cognitivi dell'azienda da Cortana al servizio sperimentale Presentation Translator, fino a Office, con grandi vantaggi per gli utenti.


Tom's Consiglia

Affascinati dalle reti neurali? Un buon punto di aprtenza per comprenderle meglio può essere Computer e Cervello di John Von Neumann