Queste cuffie con IA ti fanno ascoltare solo chi vuoi individuando il parlante con lo sguardo

Nasce un sistema di intelligenza artificiale che permette a chi indossa cuffie di "registrare" una persona guardandola parlare per tre-cinque secondi.

Avatar di Giulia Serena

a cura di Giulia Serena

Editor

Le cuffie con cancellazione del rumore hanno raggiunto livelli di efficacia significativi nel creare uno scenario acustico isolato per l'utente. Tuttavia, la capacità di filtrare selezionamente i suoni ambientali rimane ancora una sfida. Ad esempio, le ultime AirPods Pro di Apple sono capaci di adeguare automaticamente i livelli di suono, riconoscendo quando l'utente sta conversando ma non permettono un controllo preciso su quale voce ascoltare e in quali momenti.

Ebbene, sembra che siamo pronti a fare un salto avanti: un team di ricerca dell'Università di Washington ha sviluppato un sistema di intelligenza artificiale che potrebbe rivoluzionare l'uso delle cuffie. Il sistema, chiamato "Target Speech Hearing" (TSH), permette agli utenti di "registrare" la voce di una persona semplicemente guardandola per tre-cinque secondi. Una volta registrata, la voce di quella specifica persona sarà l'unica a essere trasmessa dalle cuffie, anche se l'utente si muove in ambienti rumorosi e non sta più guardando il parlante.

I risultati del progetto sono stati presentati il 14 maggio a Honolulu durante la conferenza ACM CHI sulla Human Factors in Computing Systems. Anche se il dispositivo è ancora in fase di prototipo e non è commercialmente disponibile, il codice è stato reso pubblico per permettere ulteriori sviluppi da parte di altri ricercatori.

Shyam Gollakota, professore alla Paul G. Allen School of Computer Science & Engineering e autore senior dello studio, ha spiegato l'importanza di questa innovazione:

"L'IA non è solo web chatbot che rispondono a domande, ma può anche migliorare la percezione uditiva di chi indossa le cuffie, adattandosi alle loro preferenze. Con il nostro dispositivo puoi ascoltare chiaramente un singolo interlocutore anche in un ambiente molto affollato."

Per utilizzare il sistema TSH, l'utente deve indossare delle cuffie dotate di microfoni e premere un pulsante mentre dirige lo sguardo verso la persona che sta parlando. Il suono della voce del parlante raggiunge, quindi, i microfoni situati su entrambi i lati delle cuffie, consentendo al computer embedded di apprendere i modelli vocali dell'interlocutore desiderato. Il sistema migliora nel tempo, affinandosi quanto più il parlante continua a parlare, fornendo dati aggiuntivi per l'apprendimento.

Il test del sistema condotto su 21 soggetti ha dimostrato che la chiarezza della voce del parlante registrato era valutata quasi il doppio rispetto all'audio non filtrato. Questa ricerca si basa sui precedenti studi del team che avevano sviluppato tecnologie di "ascolto semantico", permettendo agli utenti di selezionare specifiche categorie di suoni da ascoltare.

Attualmente, il sistema TSH può registrare soltanto un parlante alla volta e necessita che non ci siano altre voci forti dalla stessa direzione. Se la qualità del suono non è soddisfacente, è possibile eseguire una nuova registrazione per migliorare la chiarezza.

Leggi altri articoli