Microsoft, un nuovo record, ecco l'AI che ci capisce

L'Intelligenza Artificiale di Microsoft riesce a comprendere quasi tutte le parole che sente, e presto arriverà allo stesso livello degli esseri umani. Sono necessari una grande potenza hardware e software evoluti, che Microsoft riverserà presto nei suoi prodotti commerciali.

Avatar di Valerio Porcu

a cura di Valerio Porcu

Senior Editor

Microsoft ha stabilito un nuovo record, ottenendo una precisione altissima nel riconoscimento vocale. Vale a dire che ha realizzato una Intelligenza Artificiale (AI) che può capire quello che diciamo con un errore del 6,3%. La metrica usata è la Word Errore Rate (WER) e la misurazione è stata fatta con il test Switchboard NIST 2000, che è un punto di riferimento da anni per questa specifica disciplina.  

Microsoft Voice 388 1024x576
Xuedong Huang

Pochi giorni prima IBM aveva fatto sapere di aver ottenuto un WER pari al 6,6%, un altro risultato notevole di poco superiore a quello fatto segnare da Microsoft. La cosa notevole, fa notare Richard Eckel su uno dei blog di Microsoft, è che solo 20 anni fa il migliore risultato possibile era 43%.

"Questa nuova pietra miliare è possibile grazie a un'ampia gamma di nuove tecnologie sviluppate in ambito AI da molte diverse organizzazioni negli ultimi 20 anni", ha commentato Xuedong Huang, che per Microsoft dirige la divisione dedicata al linguaggio.

speech graphic

Secondo alcuni ricercatori presto i computer saranno in grado di comprendere il linguaggio umano esattamente come facciamo noi, e tale capacità renderà notevolmente migliori prodotti come Cortana, Siri, Skype Translator, Google Now o Alexa.

Leggi anche: L'uomo batte il computer a Starcraft perché mentiamo

Elemento chiave per i recenti sviluppi, tanto da parte di MS quanto di IBM, è il recente balzo nell'uso e nella diffusione delle reti neurali - vale a dire strutture matematiche che simulano un sistema di neuroni interconnessi tra loro - il modello di riferimento è proprio il cervello. Quelle stesse reti neurali che di recente hanno fatto parlare di sé per i risultati ottenuti in ambiti come il riconoscimento di immagini (computer vision) - un'area che richiama anche l'interesse di Intel.

Leggi anche: IBM Minsky ha due CPU Power8 e quattro Nvidia Tesla P100

"Un altro componente fondamentale per i ricercatori Microsoft", continua Eckel, "è il Computational Network Toolkit (CNTK), grazie al quale gli algoritmi di deep learning si possono eseguire "più velocemente di un ordine di grandezza" - e ciò a sua volta è possibile grazie all'addestramento parallelo fatto tramite i chip grafici (GPU).  

Leggi anceh: 4500 GPU Nvidia Pascal per macinare i dati dell'LHC del CERN

Questi strumenti non sono relegati all'ambito della ricerca, ma sono già utilizzati in prodotti commerciali. CNTK per esempio è usato in Cortana, l'assistente vocale di Microsoft, che proprio grazie alle GPU può "ingerire 10 volte la quantità di dati nello stesso tempo".

FN5A2788 cropped
Geoffrey Zweig (Microsoft Speech & Dialog research group)

Nei piani di Microsoft per il futuro c'è anche il concetto di Conversation as a Platform (CaaP); l'idea è di fornire a clienti business e privati strumenti di AI on demand, che forniranno un avanzato livello di interazione vocale. Secondo l'AD Microsoft Satya Nadella, CaaP potrebbe avere un profondo impatto su come usiamo i computer, al pari di cambiamenti passati quali l'introduzione dell'interfaccia grafica, del Web o del Mobile.

"È un concetto semplice", ha affermato Nadella, "ma ha tuttavia un impatto molto potente. Ha a che fare con la potenza del linguaggio umano e la sua applicazione più ampia a tutto il calcolo elettronico".

Microsoft punta sicuramente molto in alto, e qualcuno potrebbe pensare che sia anche troppo. Ma a supporto dell'azienda si può citare il recente rapporto di Forrester Research, che cita proprio gli assistenti intelligenti come uno degli elementi che più di tutti contribuiranno a ridurre i posti di lavoro disponibili nel corso dei prossimi cinque anni.