I dati anonimi non sono sufficienti a proteggere la privacy, risalire agli utenti è facilissimo

Il GDPR, tra le tante cose, ha stabilito anche che i dati sensibili raccolti dai siti o dalle app devono essere conservati in forma anonima. Una certezza in meno per chi ci tiene alla propria privacy, o almeno così si pensava fino a poco tempo fa. Alcuni ricercatori dell'Imperial College di Londra ha infatti da poco pubblicato i risultati di una ricerca che dimostra quanto sia facile, utilizzando un'IA collegare nuovamente i dati anonimizzati agli utenti corrispondenti.

In teoria l'anonimizzazione utilizza alcune tecniche come ad esempio lo stripping, in cui i dati stessi vengono fatti a pezzi e poi archiviati dopo averne mescolato i pezzi. Per ricomporre il tutto dunque è necessaria la chiave di cifratura, senza la quale, si pensava, il puzzle non può essere ricomposto. Invece la ricerca dimostra che, utilizzando tecniche di machine learning, è possibile ricostruire l'identità dell'utente, a partire da campioni privi di senso dei dati stessi, in una sorta di processo di retro engineering. Addirittura nello studio è stato possibile ricostruire l'identità del 99,8% degli utenti statunitensi, partendo da sole quindici caratteristiche.

"Potrebbero esserci molte persone di sesso maschile che hanno trent'anni e vivono a New York City, molti meno sono nati il 5 gennaio, guidano un'auto sportiva rossa e vivono con due bambine e un cane", ha spiegato a tal proposito Luc Rocher, uno degli autori dello studio. I ricercatori cioè hanno sviluppato un modello in grado di incrociare i dati disponibili, valutando le probabilità che ciascuna caratteristica ha di descrivere una persona specifica in mezzo a miliardi di altre. Del resto la normativa per la privacy impone l'anonimizzazione di dati come nome e indirizzo email, non del colore dell'auto e di altri dettagli, forse secondari ma che utilizzati nel modo giusto possono aiutare l'identificazione.

"Queste sono informazioni standard che le aziende possono chiedere. Sebbene siano vincolate dalle linee guida del GDPR, sono libere di circolare una volta anonimizzate", ha commentato Yves-Alexandre de Montjoye, l'autore principale dello studio. "La nostra ricerca mostra quanto facilmente - e con precisione - gli individui possano essere rintracciati una volta che ciò sia accaduto. Le aziende e i governi hanno minimizzato il rischio di ri-identificazione, sostenendo che i set di dati che vendono sono sempre incompleti. I nostri risultati contraddicono questo, e dimostrano che qualcuno potrebbe facilmente e con precisione stimare la probabilità che i dati in loro possesso appartengano alla persona che stanno cercando".

Si tratta di una grave falla, non solo e non tanto tecnologica, quanto proprio giuridica, perché lavorando su questa manchevolezza le aziende, ma anche hacker malintenzionati, potrebbero creare profili personali sempre più completi, o risalire agli individui dietro i dati. Una situazione pericolosa, a cui speriamo sarà presto posto rimedio.