Avatar di Alessandro Crea

a cura di Alessandro Crea

Un uomo sospettato di crimini economici è stato arrestato in Cina, dopo essere stato identificato tra altre 50mila persone, durante un concerto pop. L'uomo, a quanto riportato dalle fonti, "al momento dell'arresto era pallido e sorpreso per quanto accaduto, non aspettandosi di essere riconosciuto in una tale folla".

La polizia cinese avrebbe usato un'avanzata tecnologia di riconoscimento facciale, probabilmente la stessa di cui parlammo a febbraio scorso, in grado di identificare un volto in brevissimo tempo, grazie alla capacità di compararne i tratti salienti con quelli dei volti contenuti in un database.

nec

Nessuna sorpresa comunque, visto che negli ultimi anni la Cina sta investendo tantissimo per lo sviluppo di soluzioni avanzatissime di intelligenza artificiale e riconoscimento facciale, ufficialmente allo scopo di migliorare la sicurezza interna anche se come sappiamo spesso sono invece impiegati a scopo di controllo, per dissidenti o minoranze etniche.

Nel frattempo, alcuni ricercatori ‎Google hanno sviluppato un sistema di deep learning in grado di isolare e identificare le singole voci all'interno di un ambiente rumoroso, cercando di replicare il cosiddetto effetto "cocktail party" tipico del nostro cervello, che riesce a concentrarsi sulla voce del nostro interlocutore anche nel bel mezzo di una festa chiassosa.

Best Facial Recognition Search Engine to Perform Online Face Match

‎‎Il metodo usato da Google‎‎ si basa su un modello di analisi audio-video, incentrato quindi principalmente sull'isolamento delle voci in un video. Secondo Google infatti qui la componente visiva è fondamentale in quanto l'algoritmo può isolare una fonte audio a seconda di chi sta parlando, riconoscendo quest'ultimo dal movimento della bocca.

Secondo quanto riportato nel post sul blog ufficiale, i ricercatori hanno sviluppato tale modello selezionando 100.000 video di "letture e discorsi" su YouTube, da cui sono state estratte quasi 2.000 ore di segmenti di parlato, poi mixati tra di loro e con rumori di fondo artificiali per ottenere appunto l'effetto cocktail party. I ricercatori hanno poi addestrato l'Intelligenza Artificiale a selezionare le fonti all'interno del mix leggendo le espressioni delle persone che parlano in ciascun video e usando uno spettrogramma di ciascuna traccia. In questo modo il sistema è riuscito ad abbinare ciascun audio a un volto, creando tracce audio separate per ciascun oratore.

untitled

Attualmente Google ha detto di star esplorando la possibilità di integrare tale capacità in alcuni prodotti, che non è difficile identificare in Google Assistant e Google Home, due soluzioni che si avvantaggerebbero molto di questa capacità. Al momento comunque non c'è nulla di concreto ma non è difficile capire che le implicazioni etiche riguardanti la privacy sono grandi almeno quanto le potenzialità di queste due soluzioni.


Tom's Consiglia

La Conversazione di Francis Ford Coppola, un classico della paranoia da controllo totale, da riscoprire.