Nella medicina genomica, i punteggi di rischio poligenico sono diventati strumenti sempre più diffusi per stimare la predisposizione individuale a patologie complesse come il diabete di tipo 2, le malattie cardiovascolari e alcune forme di cancro. Questi indicatori sintetizzano in un unico valore numerico l'effetto combinato di migliaia di varianti genetiche, e vengono utilizzati sia nella ricerca clinica sia da aziende di test del DNA come 23andMe. Un nuovo studio condotto da ricercatori della Columbia University di New York mette però in discussione un assunto di fondo largamente accettato: che questi punteggi costituiscano dati anonimi e a basso rischio di privacy.

Al centro dell'analisi ci sono i cosiddetti polimorfismi a singolo nucleotide, o SNP (Single-Nucleotide Polymorphisms), ovvero variazioni puntiformi nel testo del genoma umano. Un punteggio di rischio poligenico viene calcolato sommando il contributo di decine, centinaia o persino migliaia di questi SNP, ciascuno moltiplicato per un coefficiente di peso che ne riflette l'impatto sulla probabilità di sviluppare una determinata condizione. È proprio questa struttura matematica a nascondere una vulnerabilità inaspettata.

Per capire il problema, è utile ricorrere a un'analogia: tentare di risalire agli SNP di partenza conoscendo soltanto il punteggio finale è paragonabile al cercare di indovinare i singoli numeri di un telefono sapendo solo che la loro somma è 52. In matematica, questo è noto come il problema dello zaino (knapsack problem), classificato come computazionalmente arduo. Per questo motivo, i punteggi poligenici sono stati tradizionalmente considerati sicuri dal punto di vista della riservatezza genetica. Tuttavia, Gamze Gürsoy e Kirill Nikitin, entrambi ricercatori alla Columbia University, hanno dimostrato che tale sicurezza non è assoluta.

La chiave della vulnerabilità risiede nella precisione estrema dei pesi associati a ciascun SNP: coefficienti che possono arrivare fino a 16 cifre decimali. Questa precisione riduce drasticamente il numero di combinazioni genomiche compatibili con un dato punteggio finale, rendendo il problema matematico improvvisamente trattabile. Come spiega Gürsoy: «Poiché il punteggio poligenico finale è vincolato da un numero finito di modi per arrivarci, e da un'organizzazione statisticamente plausibile degli SNP sottostanti, è possibile dedurlo con un alto grado di accuratezza.»

Nello studio, i due ricercatori hanno applicato il loro metodo a 298 modelli poligenici che utilizzano al massimo 50 SNP ciascuno, testandoli su dati genetici reali provenienti da 2353 individui. Lavorando a ritroso, hanno calcolato tutti i possibili genotipi compatibili con ciascun punteggio, eliminando progressivamente le combinazioni contenenti un numero eccessivo di mutazioni rare. Un ulteriore vantaggio metodologico è emerso dalla sovrapposizione tra modelli: poiché uno stesso SNP può comparire in più modelli poligenici distinti, le informazioni ricavate da modelli più piccoli possono essere usate come punto di partenza per attaccare modelli più grandi, in una strategia a cascata.

I ricercatori sono stati in grado di ricostruire il genotipo dei donatori con una precisione del 94,6%, identificando correttamente in media 2450 SNP per individuo.

I risultati quantitativi sono significativi: il metodo ha consentito di ricostruire il genotipo dei donatori con una precisione del 94,6%, identificando correttamente circa 2450 SNP per ciascun individuo. Particolarmente rilevante per la privacy è la verifica che appena 27 SNP siano sufficienti per identificare un individuo all'interno di un database di mezzo milione di campioni, e che i familiari possano essere individuati con una precisione fino al 90%. Un dato preoccupante riguarda inoltre la disparità tra gruppi etnici: le persone di origine africana o dell'Asia orientale risultano più vulnerabili a questo tipo di attacco, poiché sono sottorappresentate nei database genomici di riferimento, il che riduce il "rumore" statistico utile a mascherare l'identità.

Le implicazioni pratiche di questo scenario sono molteplici. Sul piano delle assicurazioni sanitarie, un punteggio condiviso in un contesto medico potrebbe essere potenzialmente sfruttato da terze parti per ricostruire informazioni genetiche non dichiarate dal paziente. Sul piano dell'anonimato, chi pubblica online i propri punteggi poligenici per chiedere supporto interpretativo potrebbe esporre inconsapevolmente la propria identità genetica, la quale è poi incrociabile con database genealogici pubblici come quelli utilizzati nelle indagini forensi. Secondo Gürsoy, sono attualmente 447 i modelli di piccole dimensioni e alta precisione presenti in database pubblici di punteggi poligenici che risultano vulnerabili a questo tipo di attacco.

La comunità scientifica invita tuttavia a contestualizzare il rischio. Ying Wang, del Massachusetts General Hospital di Boston, sottolinea che le protezioni normative sui dati esistenti e i colli di bottiglia computazionali attuali limitano la praticabilità di questo attacco su larga scala. «I risultati possono servire come monito affinché i modelli di piccole dimensioni vengano trattati come dati potenzialmente sensibili nelle comunicazioni cliniche e nelle discussioni sul consenso informato», ha dichiarato la ricercatrice. La stessa Gürsoy mantiene una valutazione equilibrata: «Volevamo segnalare che il rischio è basso, ma che in determinate condizioni può comunque verificarsi una perdita di informazioni. Questo dovrebbe essere considerato nella progettazione di studi di ricerca, soprattutto quando coinvolgono popolazioni vulnerabili.»

La questione aperta per la comunità genomica è ora quella di sviluppare standard più robusti per la gestione e la condivisione dei punteggi di rischio poligenico. Tra le direzioni più promettenti vi sono l'introduzione sistematica di tecniche di differential privacy, che aggiungono rumore statistico controllato ai coefficienti dei modelli, e la revisione delle linee guida per il consenso informato nei trial clinici che prevedono la raccolta e la diffusione di questi punteggi.