Big G ha pubblicato su GitHub il codice che alimenta il suo strumento di riconoscimento vocale e trascrizione automatica in ambiente Android

Google ha reso open source il motore che alimenta il suo strumento di trascrizione di riconoscimento vocale in ambiente Android, meglio conosciuto come Live Transcribe. La società lo ha fatto per consentire agli sviluppatori di integrare il codice nei loro progetti innovativi.

Google ha rilasciato Live Transcribe a febbraio di quest’anno. Il tool utilizza algoritmi di apprendimento automatico per trasformare l’audio in didascalie in tempo reale.

A differenza della funzione Live Caption di Android, che sarà sulla prossima versione del sistema operativo mobile, Live Transcribe lavora in maniera totalmente inserita nell’OS, senza quasi farsi vedere. Basta avviare qualsiasi app o opzione che prevede il riconoscimento vocale e parlare per vedere il proprio testo scritto.

Live Transcribe si basa sull’API di Google Cloud Speech ed è in grado di inserire didascalie in tempo reale in oltre 70 lingue e slang. Disponibile su 1,8 miliardi di dispositivi Android, rimarrà ancora per molto l’unico strumento adottato universalmente dal mondo del robottino verde, visto che Live Caption sarà solo per Android Q.

È bene specificare che, per ridurre la latenza, Live Transcribe usa un codificatore Opus personalizzato. Il processo di decodifica della voce sfrutta gli algoritmi già presenti nel software (quindi non solo prelevati da internet) in modo da rendere impercettibile il lasso di tempo tra l’invio dell’audio e la trascrizione.

Nel complesso, il team è stato in grado di ottenere una riduzione di 10 volte nell’utilizzo dei dati senza compromettere la precisione delle rilevazioni.

Una volta pubblicato su GitHub in modalità open source, Google offre l’APK in maniera gratuita e completa, per permettere a tutti di provare le potenzialità della libreria senza creare alcuna riga di codice a priori.