image/svg+xml
Logo Tom's Hardware
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Tom's Hardware Logo
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Forum
  • Sconti & Coupon
Sconti & Coupon
Accedi a Xenforo
Immagine di TV OLED a prezzo giusto? Hisense dice la sua (e lo sconto è reale) TV OLED a prezzo giusto? Hisense dice la sua (e lo sconto è...
Immagine di Non solo polvere: questo aspirapolvere rimuove anche i liquidi mentre pulisci Non solo polvere: questo aspirapolvere rimuove anche i liqui...

Google, l'IA che riconosce le voci col 92% di accuratezza diventa open source

Google ha deciso di rendere pubblicamente disponibile il codice alla base della sua IA in grado di riconoscere col 92% di precisione voci differenti. La tecnologia apre a tantissimi utilizzi, dal campo medico a quello consumer.

Advertisement

Quando acquisti tramite i link sul nostro sito, potremmo guadagnare una commissione di affiliazione. Scopri di più
Avatar di Alessandro Crea

a cura di Alessandro Crea

Pubblicato il 13/11/2018 alle 15:09

Riconoscere e distinguere voci differenti all'interno di un flusso audio in cui sono presenti più persone è un'operazione tutt'altro che facile per un'intelligenza artificiale. Google tuttavia ha messo a punto una nuova tecnica di "speaking diarization" molto efficiente, in grado di raggiungere una precisione del 92%. L'aspetto più interessante però è un altro: gli algoritmi di base sono stati resi pubblicamente disponibili su GitHub in forma open source in modo da poter essere utilizzati anche da sviluppatori di terze parti.

Le potenzialità di questa tecnologia sono enormi. Google fa riferimento ad esempio all'ambito medico, con l'IA in grado di seguire una conversazione medico-paziente o tra medici diversi, ma è possibile anche utilizzare questa tecnica per estrapolare l'intervento di uno specifico oratore all'interno di un flusso audio, facilitando ad esempio el operazioni di video editing.

Esempio di analisi di un flusso audio: nella parte bassa a colori diversi corrispondono oratori differenti.

Tuttavia l'utilità di questa soluzione è limitata unicamente dalla fantasia: in ambito consumer, uno smart speaker con assistente digitale in grado di distinguere tra i diversi membri della famiglia potrebbe rifiutarsi di eseguire determinati comandi, ad esempio nel caso in cui a impartirli fossero dei minori. Entrando in un'auto invece basterebbe farsi riconoscere affinché l'assistente applichi automaticamente tutte el regolazioni che il guidatore preferisce, zone di riscaldamento, inclinazione dello sterzo e dei sedili etc.

Senza addentrarci in tecnicismi eccessivi, il nuovo metodo di diarizzazione messo a punto dai laboratori Google, è basato sull'utilizzo di reti neurali di tipo ricorsivo e sull'etichettatura iniziale degli oratori, ovvero sul processo di annotazione di un input audio da parte dell'IA, che assocerà a ciascun segnale audio l'identità di chi lo emette.

In seguito gli algoritmi consentiranno al sistema di riconoscere i diversi interventi appartenenti alle varie etichette all'interno del dominio del tempo, aggiornando ogni etichetta in tempo reale. In futuro gli sviluppatori sperano anche di rifinire ulteriormente la tecnologia in modo da integrare informazioni contestuali e consentire la decodifica offline in modo da ridurre ulteriormente la percentuale di errori.

Leggi altri articoli

👋 Partecipa alla discussione! Scopri le ultime novità che abbiamo riservato per te!

0 Commenti

⚠️ Stai commentando come Ospite . Vuoi accedere?


Questa funzionalità è attualmente in beta, se trovi qualche errore segnalacelo.

Segui questa discussione
Advertisement

Non perdere gli ultimi aggiornamenti

Newsletter Telegram

I più letti di oggi


  • #1
    Questo nuovo materiale "vive" e ricostruisce gli edifici
  • #2
    Uso della VRAM ridotto all'osso con la nuova versione del DLSS
  • #3
    Anche Amazon nella rete del “NO IVA”: ecco gli affari nascosti
  • #4
    Milioni di stampanti in tutto il mondo a rischio sicurezza
  • #5
    Uno YouTuber ha acquistato uno dei marchi più famosi del retrogaming
  • #6
    Questa è la tech che salverà le schede video da 8GB
Articolo 1 di 5
Non solo polvere: questo aspirapolvere rimuove anche i liquidi mentre pulisci
Proscenic F20A è un aspirapolvere senza fili 3 in 1 con coupon da 50€ di sconto da selezionare su Amazon, che lo porta a soli 219€.
Immagine di Non solo polvere: questo aspirapolvere rimuove anche i liquidi mentre pulisci
Leggi questo articolo
Articolo 2 di 5
TV OLED a prezzo giusto? Hisense dice la sua (e lo sconto è reale)
Offerta imperdibile per la smart TV Hisense 55A8DN OLED 4K 55 pollici con tecnologia Dolby Vision IQ e 120Hz. Su Amazon sotto gli 800€!
Immagine di TV OLED a prezzo giusto? Hisense dice la sua (e lo sconto è reale)
Leggi questo articolo
Articolo 3 di 5
Il colore conta: lo smart speaker Sonos bianco ha oltre 40€ di sconto
A volte il colore fa la differenza: questo smart speaker Sonos bianco è scontato di oltre 40€ al momento del pagamento, permettendovi di prenderlo a 187€.
Immagine di Il colore conta: lo smart speaker Sonos bianco ha oltre 40€ di sconto
Leggi questo articolo
Articolo 4 di 5
Passerai l’estate a giocare? Fallo con le cuffie HyperX, oggi in offerta
Buona offerta da Amazon sulle HyperX Cloud III Wireless, in sconto da 179,99€ a 119,99€, cuffie gaming con 120 ore di autonomia e audio DTS Spatial.
Immagine di Passerai l’estate a giocare? Fallo con le cuffie HyperX, oggi in offerta
Leggi questo articolo
Articolo 5 di 5
Shelly Gen4 e Plus: piccoli dispositivi ma grandi alleati per una casa smart
Sono arrivati i nuovi Shelly Gen4: soluzioni smart con controllo dei consumi per una casa intelligente come mai prima d’ora.
Immagine di Shelly Gen4 e Plus: piccoli dispositivi ma grandi alleati per una casa smart
Leggi questo articolo
Advertisement
Advertisement

Advertisement

Footer
Tom's Hardware Logo

 
Contatti
  • Contattaci
  • Feed RSS
Legale
  • Chi siamo
  • Privacy
  • Cookie
  • Affiliazione Commerciale
Altri link
  • Forum
Il Network 3Labs Network Logo
  • Tom's Hardware
  • SpazioGames
  • CulturaPop
  • Data4Biz
  • TechRadar
  • SosHomeGarden
  • Aibay

Tom's Hardware - Testata giornalistica associata all'USPI Unione Stampa Periodica Italiana, registrata presso il Tribunale di Milano, nr. 285 del 9/9/2013 - Direttore: Andrea Ferrario

3LABS S.R.L. • Via Pietro Paleocapa 1 - Milano (MI) 20121
CF/P.IVA: 04146420965 - REA: MI - 1729249 - Capitale Sociale: 10.000 euro

© 2025 3Labs Srl. Tutti i diritti riservati.