Deep learning al servizio dell'Astronomia, nuova frontiera

In diversi articoli pubblicati in precedenza abbiamo già avuto modo di discutere della nuova Scienza chiamata Astroinformatica e su come questa stia modificando radicalmente l'approccio verso la ricerca astrofisica. La grande quantità di dati disponibili richiede l'utilizzo di nuove tecniche per poterli analizzare ed estrarne informazioni utili.

Per questo motivo vorrei raccontarvi di un lavoro che mi sta particolarmente a cuore, in quanto primo autore, insieme al mio supervisore, il Dott. Kai Polsterer dell'Heidelberg Institute for Theoretical Studies. In questo modo vorrei poter attirare l'attenzione del pubblico su un aspetto della ricerca scientifica forse poco pubblicizzato, ma che riveste un ruolo fondamentale perché costituisce l'architrave su cui poggeranno molte ricerche in un prossimo futuro. Già il titolo del paper, accettato per la pubblicazione su Astronomy&Astrophysics, dovrebbe dire molto a chi sia un minimo avvezzo a queste cose: "Photometric redshifts estimation via deep learning" (letteralmente: Stima dei redshift fotometrici per mezzo del deep learning). Andiamo però con ordine e vediamo di capire meglio di cosa si tratta.

Per redshift si intende la misura dello spostamento verso il rosso nelle righe spettrali delle galassie, causato dal flusso di Hubble, ovvero a causa dell'espansione dell'Universo. In altre parole quello che misuriamo è una sorta di effetto Doppler: poiché tutte le galassie sono trascinate dall'espansione dello spazio in cui si trovano, a causa del Big Bang, la luce che emettono, e che misuriamo sotto forma di righe spettrali, viene spostata verso il rosso. Questa quantità è misurabile ed è appunto chiamata redshift.

Non solo, grazie alla legge di Hubble il redshift risulta direttamente collegato alla distanza di un oggetto, per cui conoscerlo equivale a poter misurare con grande precisione la distanza di una qualunque sorgente astronomica al di fuori della Via Lattea. Capirete come questo sia di fondamentale importanza per gli astronomi, in quanto guardare il cielo equivale a osservare un oggetto tridimensionale proiettato su una superficie bidimensionale, in cui ogni nozione di distanza è persa. La misura delle distanze costituisce pertanto la base per comprendere ulteriori proprietà fisiche di oggetti distanti come galassie e quasar.

Il problema sta nel fatto che le misure di spettroscopia sono molto complesse e laboriose, e in pratica abbiamo a disposizione redshift spettroscopici per molte meno sorgenti di quante ne servirebbero o, in generale, di quante ne osserviamo. Molti anni fa tuttavia gli astronomi si sono accorti che è possibile ottenere una stima del redshift indipendente dall'osservazione dello spettro, basata "semplicemente" sul flusso di luce che arriva a terra, misurato in diversi filtri. In termini astronomici, stiamo parlando di nient'altro che della magnitudine.

background — Immagini reali utilizzate per gli esperimenti

Il problema sta nel fatto che la relazione per calcolare il redshift fotometrico, così come viene chiamato, a partire dalle magnitudini, è altamente non lineare, quindi molto complessa, e la stima così ottenuta risulterà in ogni caso meno precisa del redshift spettroscopico, seppur sufficiente ai nostri scopi.

Di modi per svolgere questa operazione ce ne sono molti, ma uno dei più popolari ed efficienti è basato sull'utilizzo di reti neurali. Con questo termine si intende un software strutturato sul modello del cervello umano, in cui la principale unità di calcolo è chiamata appunto neurone. I neuroni sono organizzati in strati, rispettivamente di input, output e uno o più strati nascosti, dove avviene il calcolo vero e proprio.

Utilizzando dei dati di input e una serie di output noti la rete è in grado letteralmente di imparare a svolgere un determinato compito. In altre parole quello che si fa è dare in input le magnitudini di numerose sorgenti (nell'ordine delle decine o centinaia di migliaia) e in output il redshift spettroscopico, che quindi deve essere noto nella fase detta di "addestramento della rete". Quest'ultima potrà quindi calcolare il redshift fotometrico e valutare l'errore rispetto al redshift spettroscopico, cercando di minimizzarlo sempre più in cicli ripetuti, in cui i parametri interni della rete vengono opportunamente aggiornati. Alla fine il risultato dovrebbe convergere il più possibile verso quello desiderato.

Depositphotos 75383115 l 2015 © 100502500

Modello astratto di rete neurale. Foto: © 100502500 / Depositphotos

Terminato l'addestramento la struttura interna della rete può essere congelata (ne vengono cioè fissati i parametri) e utilizzata per il calcolo "reale" nel quale non si conosce la risposta, ovvero per la quale il redshift spettroscopico non è noto.

Fin qui abbiamo parlato di storia. Ora però voglio raccontarvi cosa c'è di nuovo nel lavoro da noi pubblicato. Innanzi tutto utilizziamo il deep learning. Si tratta sempre di reti neurali, ma molto più complesse e in grado di svolgere operazioni diverse. Ciò naturalmente richiede molta più potenza di calcolo. Se una normale rete neurale può correre tranquillamente su una buona CPU, il deep learning richiede l'utilizzo di GPU per poter funzionare a dovere e in tempi ragionevoli. In particolare, nel nostro caso abbiamo utilizzato un'architettura basata su nVidia Titan X per gli esperimenti.

Ovviamente questa scelta non è dovuta a puro "capriccio" accademico, ma voleva soddisfare delle necessità. In primis, l'idea di base del lavoro era di utilizzare non le semplici magnitudini, bensì le immagini originali. Le magnitudini infatti non sono altro che una parzializzazione dell'informazione originale contenuta nelle immagini degli oggetti. Più informazione vuol dire, ragionevolmente, un risultato finale migliore. Per questo motivo abbiamo utilizzato un particolare modello di deep learning, chiamato convolutional neural network (ovvero rete a convoluzione profonda), particolarmente utile quando ci si trova a utilizzare immagini come input.

Inoltre, modificando opportunamente la nostra rete neurale abbiamo fatto in modo di ottenere non semplicemente una stima del redshift fotometrico, bensì una distribuzione di probabilità. Questo perché la natura stessa del redshift è degenere. In parole povere, per varie ragioni fisiche non esiste una misura unica del redshift, ma più misure alle quali è associata una certa probabilità.

Questo tipo di modello risulta pertanto molto più preciso e descrittivo del fenomeno in questione e i risultati che abbiamo ottenuto, confrontati con i modelli classici, mostrano difatti un grande miglioramento nelle prestazioni. Inoltre l'utilizzo di una rete siffatta ci ha permesso di ottenere stime di redshift direttamente dalle immagini, senza necessità di alcun tipo di trattamento iniziale dei dati, in modo completamente automatizzato, per un gran numero di sorgenti (nei nostri esperimenti utilizzavamo diverse centinaia di migliaia di oggetti).

Infine, l'altro grande vantaggio sta nel fatto che solitamente i modelli utilizzati finora richiedono una pre-classificazione degli oggetti. Ciò vuol dire che occorre prima distinguere le galassie dai quasar e dalle stelle.

Con questo modello invece è possibile "dare in pasto" alla rete immagini di oggetti diversi, indipendentemente dalla loro natura, e il processo di estrazione del redshift funziona dignitosamente anche in questo caso, che risulta, come potrete capire, molto più vicino a una situazione reale.

Il prossimo passo ora sarà quello di utilizzare una rete già addestrata per calcolare i redshift fotometrici per tutti gli oggetti contenuti nel database della Sloan Digital Sky Survey: qualcosa come un miliardo di sorgenti, mettendoli a disposizione della comunità.

In conclusione, mi rendo conto che lavori di questo tipo possono sembrare a prima vista meno interessanti e affascinanti di quelli sui buchi neri o sulle onde gravitazionali. Tuttavia, è partendo da queste cose che si riesce poi a studiare tutto il resto. Inoltre quello dei redshift fotometrici è sostanzialmente un caso applicativo, ma questo tipo di tecnologie può essere utilizzato in svariati campi dell'Astrofisica. Anzi, la speranza è proprio questa: che in un prossimo futuro si riesca ad automatizzare il più possibile i processi in modo da estrarre conoscenza da una quantità tale di dati che in caso contrario andrebbe semplicemente sprecata, perché nessuno sarebbe in grado di metterci le mani.

Antonio D'Isanto è dottorando in astronomia presso l'Heidelberg Institute for Theoretical Studies in Germania. La sua attività di ricerca si basa sulla cosiddetta astroinformatica, ovvero l'applicazione di tecnologie e metodologie informatiche per la risoluzione di problemi complessi nel campo della ricerca astrofisica. Si occupa inoltre di reti neurali, deep learning e tecnologie di intelligenza artificiale ed ha un forte interesse per la divulgazione scientifica. Da sempre appassionato di sport, è cintura nera 2°dan di Taekwondo, oltre che di lettura, cinema e tecnologia. Collabora con Tom's Hardware per la produzione di contenuti scientifici.

Tom's Consiglia

Siete affascinati da cielo stellato? Un buon inizio è l'Atlante di astronomia.