Storage

Microsoft scrive “ciao” nel DNA, ed è un grande passo avanti

Microsoft vuole archiviare informazioni nel DNA. Ci sta lavorando dal 2016, o almeno è da quel momento che ne abbiamo notizia. Nel luglio dello stesso anno riuscì, insieme all’Università di Washington, ad archiviare 200 MB di dati su filamenti molecolari di DNA.

Due anni più tardi la casa di Redmond e i ricercatori descrissero in un documento pubblicato su Nature Biotechnology il loro sistema per l’accesso casuale, ossia il recupero selettivo di singoli file codificati in oltre 13 milioni di oligonucleotidi di DNA.

E oggi? Le due “compagini” hanno dimostrato il “primo sistema totalmente automatizzato per archiviare e recuperare dati in DNA sintetico“, un passo chiave per portare la tecnologia fuori dai laboratori di ricerca, verso i “datacenter commerciali”.

Il DNA sembra la soluzione di archiviazione ideale. È compatto, dura a lungo – sino a 2000 anni senza che i dati si deteriorino (almeno secondo l’American Chemical Society) – e sarà sempre attuale (ossia non sarà soppiantato facilmente da nuove soluzioni di archiviazione come i DVD con i Blu-Ray). Numericamente parlando il DNA è in grado di stoccare approssimativamente un exabyte – un miliardo di gigabyte – per millimetro cubo.

I dati devono essere convertiti da 0 e 1 a molecole di DNA: adenina, timina, citosina e guanina. Per ripristinare i dati nella forma digitale, il DNA viene sequenziato e i file decodificati di nuovo in 0 e 1.

Nel caso dell’ultimo esperimento, il team congiunto è riuscito a codificare con successo la parola “hello” (ciao, 01001000 01000101 01001100 01001100 01001111 in bit) in frammenti di DNA sintetico (1 milligrammo di DNA, 4 microgrammi per il sequenziamento) e li ha convertiti nuovamente in dati digitali usando un sistema “end-to-end” completamente automatizzato, come illustrato in un nuovo documento pubblicato il 21 marzo su Nature Scientific Reports. Per ora si parla di soli 5 byte di dati, e il processo ha richiesto 21 ore a causa delle lente reazioni chimiche coinvolte nella scrittura all’interno del DNA. Fortunatamente sono già state identificate delle opzioni per ridurre il tempo richiesto di 10/12 ore.

L’interesse di Microsoft verso il DNA non è un gioco, ma un interesse concreto. Secondo l’azienda vi sarà un divario incombente tra “la quantità di dati che stiamo producendo e che deve essere preservata” e “la nostra capacità di memorizzarla”.

Di conseguenza bisogna sviluppare algoritmi e tecnologie di calcolo molecolare per codificare e recuperare i dati stipati nel DNA sintetico, al fine di contenere “tutte le informazioni attualmente memorizzate in un datacenter delle dimensioni di magazzino in uno spazio grossomodo delle dimensioni di alcuni dadi da gioco“.

Karin Strauss, ricercatrice di Microsoft, ha spiegato che “l’obiettivo finale è mettere un sistema in produzione che appaia all’utente finale molto simile a qualsiasi altro servizio di archiviazione cloud – i bit sono inviati a un datacenter e archiviati per renderli disponibili non appena il cliente li vuole. Per farlo dobbiamo dimostrare che è fattibile da un prospettiva di automazione“.

Le informazioni vengono archiviate in molecole di DNA sintetiche create in un laboratorio, non nel DNA di esseri umani o altri esseri viventi. I dati possono essere crittografati prima di essere inviati al sistema. Anche se sintetizzatori e sequenziatori svolgono già parti chiave del processo, molti dei passaggi intermedi finora richiedevano il lavoro manuale nel laboratorio di ricerca.

Un aspetto che non si adatta a un contesto commerciale, come sottolineato da Chris Takahashi, ricercatore senior dell’Università di Washington. “Non si può avere un gruppo di persone che girano intorno a un datacenter con le pipette: si è soggetti all’errore umano, è costoso e richiederebbe un’organizzazione troppo grande”, ha aggiunto.

Affinché la tecnica abbia un senso come soluzione di archiviazione commerciale, i costi devono essere ridotti sia per la sintesi del DNA sia per il processo di sequenziamento che estrae le informazioni salvate. L’automazione è la chiave, in quanto consentirebbe accessibili e costi minori. Il sistema messo a punto costa, nel complesso, 10.000 dollari.

Il sistema automatizzato di archiviazione dei dati del DNA usa un software sviluppato dal team Microsoft e UW che converte gli uni e gli zeri dei dati digitali in As, Ts, Cs e Gs (adenina, timina, citosina e guanina) che costituiscono gli elementi base del DNA. Poi vengono usate apparecchiature di laboratorio poco costose e ampiamente disponibili per trasferire i liquidi e le sostanze chimiche necessarie in un sintetizzatore che realizza frammenti di DNA sintetico e li inserisce in un contenitore.

Il team del Molecular Information Systems Lab. Foto: Dennis Wise/University of Washington

Quando il sistema ha bisogno di recuperare le informazioni, vengono aggiunte altre sostanze chimiche per preparare adeguatamente il DNA e si usano pompe microfluidiche per spingere i liquidi in altre parti del sistema che “leggono” le sequenze di DNA e le riconvertono in informazioni comprensibili a un computer. L’obiettivo del progetto non era quello di dimostrare quanto velocemente o economicamente il sistema potesse funzionare, specificano i ricercatori, ma dimostrare che l’automazione è possibile.

Il team del Molecular Information Systems Lab (MISL) dell’Università di Washington ha già dimostrato di poter archiviare fotografie di gatti, opere letterarie, video e altro nel DNA e recuperare tali file senza errori in un ambiente di ricerca. Al momento sono riusciti a memorizzare 1 GB di dati in DNA, superando il precedente record di 200 MB.

I ricercatori hanno anche sviluppato tecniche per svolgere calcoli rilevanti – come cercare e recuperare solo le immagini che contengono una mela o una bicicletta verde – usando le molecole stesse e senza la necessità di convertire i file in un formato digitale.

“Stiamo sicuramente assistendo alla nascita di un nuovo tipo di sistema informatico in cui si usano molecole per archiviare dati e l’elettronica per il controllo e l’elaborazione. Metterli insieme contiene alcune possibilità davvero interessanti per il futuro”, ha detto il professor Luis Ceze.

Il team dell’Università di Washington, sempre insieme a Microsoft, sta sviluppando anche un sistema programmabile che automatizza gli esperimenti di laboratorio usando le proprietà di elettricità e acqua per spostare le goccioline su una griglia di elettrodi. L’insieme completo di software e hardware, soprannominato “Puddle” e “PurpleDrop”, può mescolare, separare, riscaldare o raffreddare diversi liquidi ed svolgere protocolli di laboratorio.

L’obiettivo è automatizzare gli esperimenti di laboratorio che vengono eseguiti a mano o con costosi robot per la gestione dei liquidi, ma a una frazione del costo.

I prossimi passi per il team del MISL sono l’integrazione del sistema automatizzato end-to-end con tecnologie come PurpleDrop e quelle che permettono la ricerca con molecole di DNA. I ricercatori hanno progettato il sistema automatizzato per essere modulare, permettendogli di evolversi quando emergono nuove tecnologie per sintetizzare, sequenziare o lavorare con il DNA.

“La cosa fantastica di questo sistema è che se volessimo sostituire una delle parti con qualcosa di nuovo o migliore o più veloce possiamo farlo”, ha concluso il ricercatore di Microsoft Bichlien Nguyen.