Il primo sequenziamento completo del genoma umano rivela inaspettati segreti

Parti del genoma umano ora disponibili per lo studio per la prima volta si sono rivelate importanti per comprendere le malattie genetiche, la diversità umana e l'evoluzione.

Avatar di Alessandro Crea

a cura di Alessandro Crea

La prima sequenza veramente completa di un genoma umano, che copre ogni cromosoma da un capo all'altro senza lacune e precisione senza precedenti, è ora accessibile attraverso l'UCSC Genome Browser ed è descritta in sei articoli pubblicati su Science. Da quando la prima bozza di lavoro di una sequenza di genoma umano è stata assemblata alla UC Santa Cruz nel 2000, la ricerca genomica ha portato a enormi progressi nella nostra comprensione della biologia e delle malattie umane. Tuttavia, le regioni cruciali che rappresentano circa l'8% del genoma umano sono rimaste nascoste agli scienziati per oltre 20 anni a causa dei limiti delle tecnologie di sequenziamento del DNA.

Karen Miga, assistente professore di ingegneria biomolecolare presso la UC Santa Cruz, e Adam Phillippy presso il National Human Genome Research Institute (NHGRI) hanno organizzato un team internazionale di scienziati, il Telomere-to-Telomere (T2T) Consortium, per riempire i pezzi mancanti. I loro sforzi hanno ora dato i loro frutti.

Il nuovo genoma di riferimento, chiamato T2T-CHM13, aggiunge quasi 200 milioni di coppie di basi di nuove sequenze di DNA, tra cui 99 geni che potrebbero codificare per le proteine e quasi 2.000 geni candidati che necessitano di ulteriori studi. Corregge inoltre migliaia di errori strutturali nella sequenza di riferimento corrente.

Le lacune ora colmate dalla nuova sequenza includono l'intero braccio corto di cinque cromosomi umani e coprono alcune delle regioni più complesse del genoma. Questi includono sequenze di DNA altamente ripetitive trovate dentro e intorno a importanti strutture cromosomiche come i telomeri alle estremità dei cromosomi e i centromeri che coordinano la separazione dei cromosomi replicati durante la divisione cellulare. La nuova sequenza rivela anche duplicazioni segmentali precedentemente non rilevate, lunghi tratti di DNA che sono duplicati nel genoma e sono noti per svolgere ruoli importanti nell'evoluzione e nella malattia.

"Queste parti del genoma umano che non siamo stati in grado di studiare per oltre 20 anni sono importanti per la nostra comprensione di come funziona il genoma, le malattie genetiche e la diversità e l'evoluzione umana", ha detto Miga. Molte delle regioni appena rivelate hanno importanti funzioni nel genoma anche se non includono geni attivi.

"C'è un profondo vantaggio nel vedere l'intero genoma come un sistema completo. Ci mette in grado di svelare come funziona quel sistema", ha detto David Haussler, direttore dell'UC Santa Cruz Genomics Institute. "Abbiamo ottenuto un'enorme comprensione della biologia e delle malattie umane dall'avere circa il 90% del genoma umano, ma c'erano molti aspetti importanti che giacevano nascosti, fuori dalla vista della scienza, perché non avevamo la tecnologia per leggere quelle porzioni del genoma. Ora possiamo stare in cima alla montagna e vedere tutto il paesaggio sottostante e ottenere un quadro completo del nostro patrimonio genetico umano".

Il nuovo genoma di riferimento T2T integrerà il genoma di riferimento umano standard, noto come Genome Reference Consortium build 38 (GRCh38), che ha avuto le sue origini nel Progetto Genoma Umano finanziato con fondi pubblici ed è stato continuamente aggiornato sin dalla prima bozza nel 2000.

"Stiamo aggiungendo un secondo genoma completo, e poi ce ne saranno altri", ha spiegato Haussler. "La fase successiva è quella di pensare al riferimento per il genoma dell'umanità come se non fosse una singola sequenza del genoma. Questa è una transizione profonda, foriera di una nuova era in cui alla fine cattureremo la diversità umana in modo imparziale".

Il genoma di riferimento standard (GRCh38) non rappresenta alcun individuo, ma è stato assemblato da più donatori. Fondendoli in una sequenza lineare ha creato strutture artificiali nella sequenza. Il progetto Human Pangenome consentirà di confrontare genomi di nuova sequenza con più genomi completi che rappresentano una serie di antenati umani.

Un risultato importante della nuova sequenza T2T sta consentendo valutazioni più accurate delle varianti genetiche. Quando i genomi umani vengono sequenziati per studi clinici per comprendere il ruolo delle varianti genetiche nella malattia o per studiare la diversità genetica all'interno e tra le popolazioni umane, vengono quasi sempre analizzati allineando i risultati del sequenziamento con il genoma di riferimento per il confronto. Il team della variante T2T ha documentato importanti miglioramenti nell'identificazione e nell'interpretazione delle varianti genetiche utilizzando la nuova sequenza T2T rispetto al genoma umano di riferimento standard.

"Il nuovo genoma umano è incredibilmente accurato a livello di base, permettendoci di contrassegnare centinaia di migliaia di varianti che erano state male interpretate mappandole al riferimento standard. Molte di queste nuove varianti sono in geni noti per contribuire alla malattia. Ora possiamo individuarli perché abbiamo un genoma di riferimento più completo e accurato", ha detto Miga.

"Il lavoro di T2T riflette gli sforzi sostenuti e dedicati di molte persone alla UC Santa Cruz e altrove. Karen Miga ha lavorato duramente per ottenere sequenze di centromeri reali negli assemblaggi del genoma umano per un decennio, e questo è finalmente arrivato a buon fine!" ha detto Kent. "Sono molto entusiasta di vedere questo lavoro combinato con gli sforzi per ottenere sequenze da telomeri a telomeri da altri antenati umani. Ci stiamo muovendo rapidamente verso una rappresentazione veramente completa del genoma umano".