MegaFace, milioni di foto usate senza consenso per allenare le IA dei colossi hi-tech

4 milioni di foto di 672mila persone, tra cui anche minorenni: è questo il contenuto di MegaFace un enorme database la cui esistenza è stata scoperta pochi giorni fa dal New York Times. Le immagini, recuperate da Flickr senza il consenso delle persone ritratte, sono state utilizzate per addestrare gli algoritmi di riconoscimento facciale di diversi colossi del Web e del settore hi-tech, come Google, Intel, Tencent, SenseTime, NtechLab, Amazon, Mitsubishi Electric e Philips.

Prima però di trarre conclusioni, è necessario comprendere come tutto ciò sia potuto accadere e il quadro complessivo che fa da cornice alla situazione. ‎"Agli albori della tecnologia di riconoscimento facciale, i ricercatori svilupparono i loro algoritmi con il chiaro consenso dei soggetti. Negli anni '90, le ‎‎università‎‎ portavano volontari negli studi fotografici per farli riprendere da diverse angolazioni. In seguito i ricercatori hanno iniziato a rivolgersi a ‎‎metodi più aggressivi e surrettizi‎‎ per raccogliere i volti su ‎‎una scala più grande,‎‎ attingendo alle telecamere di sorveglianza nei caffè, nei campus universitari e negli spazi pubblici, raccogliendo anche el foto online", spiega il NYT.

Bisogna sapere però che questo tipo di immagini negli Stati Uniti generalmente non sono protette e, benché la cosa sia noiosa, possono essere utilizzate legalmente, anche se con qualche eccezione. L'Illinois ad esempio è uno degli Stati con le più stringenti direttive sulla privacy, tanto che è già in preparazione una class action da parte delle vittime residenti lì. ‎

In realtà, stando a quanto riportato da Adam Harvey, un artista che tiene traccia dei data set presenti in rete, di database come MegaFace ce ne sarebbero almeno 200, con decine di milioni di foto di circa un milione di persone, anche se alcuni di essi sono derivati da altri e quindi nella cifra sono compresi eventuali duplicati. Il problema, per chi usa i database pubblici, è che solitamente le immagini provenienti da impianti di videosorveglianza sono di bassa qualità, oppure spesso i database sono pieni di foto di persone famose.

Nel tentativo di risolvere questo genere di problemi, nel giugno del 2014 ‎Yahoo annunciò "la più grande collezione multimediale pubblica che sia mai stata ‎‎rilasciata", con 100 milioni di foto e video, tutte ottenute attraverso Flickr, all'epoca di sua proprietà. Le immagini inoltre erano tutte con Creative Commons o licenze d'uso commerciali, e Yahoo! non forniva direttamente le immagini, ma un link ad esse, in modo che, se nel corso del tempo l'utente avesse cambiato idea e impostato l'immagine come privata, essa non sarebbe più stata disponibile.

Secondo quanto riportato dal NYT però erano presenti delle vulnerabilità nel sistema, che consentivano di accedere alle foto di un utente Flickr anche dopo che quest'ultimo le avesse rese private. Inoltre, alcuni ricercatori scaricarono semplicemente le immagini che in seguito redistribuirono, bypassando del tutto la protezione immaginata da Yahoo!. Tra questi anche un team dell'Università di Washington, che nel 2015 utilizzarono i dati di Flickr proprio per creare MegaFace.

La stessa università nel 2016 ha poi ‎lanciato un "MegaFace Challenge", in cui i team che stavano lavorando alle tecnologie di riconsocimento facciale erano invitati a utilizzare il set di dati per testare la validità dei propri algoritmi. L'Università chiese di utilizzare i dati solo per "ricerche non commerciali e scopi educativi" e oltre 100 tra organizzazioni e aziende aderirono, per salire poi nel tempo a più di 300.

Tra queste però alcune hanno utilizzato le proprie tecnologie per scopi non esattamente etici. SenseTime ad esempio ha collaborato col governo cinese per monitorare la minoranza musulmana degli Uiguri, ‎‎mentre gli algoritmi di NtechLab sono stati utilizzati in Russia per rilevare la presenza di stranieri‎‎ in metropolitana.

I rischi sono diversi. Anzitutto essere presenti in un database di questo tipo significa essere più facilmente tracciabili, identificabili e, perché no, spiabili dalle sempre più diffuse telecamere dotate di riconsocimento facciale. MegaFace e altri database inoltre sono disponibili in chiaro e pubblicamente accessibili e, nonostante non contengano i nomi delle persone presenti nelle foto o altri dati sensibili, espongono le stesse a maggiori rischi legati a truffe o ricatti, tramite l'utilizzo del proprio volto o per addestrare gli algoritmi a creare altre facce, inesistenti ma assai credibili, come ad esempio può fare una recente tecnologia Nvidia. ‎

Il problema più grave però, a nostro avviso, è quello che molti stanno iniziando a definire "nichilismo della privacy", che indica l'atteggiamento di rinuncia alla possibilità effettiva di controllare i nostri dati personali nell'era digitale. Quanto accaduto con MegaFace potrebbe, a seconda del nostro punto di vista, stimolare la richiesta per una più efficace vigilanza o al contrario ispirare rassegnazione totale.

Il problema è che il nostro volto, la nostra voce (ricordate le registrazioni conservate da Google, Amazon, Apple e Microsoft?) e gli altri nostri dati biometrici non sono solo comode soluzioni per accedere a siti, app o servizi senza dover ricordare password, ma sono parte di noi, definiscono la nostra identità. "Ci siamo abituati a negoziare la comodità per la privacy, in un modo che ha offuscato i nostri sensi su ciò che sta accadendo con tutti i dati raccolti su di noi", ha spiegato al NYT Faye Jones, docente di giurisprudenza presso l'Università dell'Illinois. "ma la gente si sta iniziando a svegliare". ‎