Il MIT ha messo a punto uno strumento per... prevedere il futuro?

I ricercatori progettano un'interfaccia user-friendly che aiuta i non esperti a fare previsioni utilizzando i dati raccolti nel tempo.

Avatar di Alessandro Crea

a cura di Alessandro Crea

Un gruppo di ricercatori ha progettato un'interfaccia che sarà user-friendly per aiutare i non esperti a fare previsioni utilizzando i dati raccolti nel tempo. Se qualcuno sta cercando di prevedere il meteo, oppure prevedere i prezzi futuri delle azioni, identificare le opportunità mancate per le vendite al dettaglio o stimare il rischio di un paziente di sviluppare una malattia, probabilmente dovrà interpretare i dati delle serie temporali, che sono una raccolta di osservazioni registrate nel tempo.

Fare previsioni utilizzando dati di serie temporali richiede in genere diverse fasi di elaborazione dei dati e l'uso di complessi algoritmi di apprendimento automatico, che hanno una curva di apprendimento così ripida che non sono facilmente accessibili ai non esperti.

Per rendere questi potenti strumenti più user-friendly, i ricercatori del MIT hanno sviluppato un sistema che integra direttamente la funzionalità di previsione su un database di serie temporali esistente. La loro interfaccia semplificata, che chiamano tspDB (time series predict database), esegue tutta la complessa modellazione dietro le quinte in modo che un non esperto possa facilmente generare una previsione in pochi secondi. Il nuovo sistema è più accurato e più efficiente rispetto ai metodi di deep learning all'avanguardia quando si eseguono due attività: prevedere i valori futuri e riempire i punti dati mancanti.

Uno dei motivi per cui tspDB ha così tanto successo è che incorpora un nuovo algoritmo di previsione delle serie temporali, spiega lo studente laureato in ingegneria elettrica e informatica (EECS) Abdullah Alomar, autore di un recente documento di ricerca in cui lui e i suoi co-autori descrivono l'algoritmo. Questo algoritmo è particolarmente efficace nel fare previsioni su dati di serie temporali multivariate, che sono dati che hanno più di una variabile dipendente dal tempo. In un database meteorologico, ad esempio, la temperatura, il punto di rugiada e la copertura nuvolosa dipendono ciascuno dai loro valori passati.

L'algoritmo stima anche la volatilità di una serie temporale multivariata per fornire all'utente un livello di confidenza per le sue previsioni. "Anche se i dati delle serie temporali diventano sempre più complessi, questo algoritmo può catturare efficacemente qualsiasi struttura di serie temporali là fuori. Sembra che abbiamo trovato la lente giusta per esaminare la complessità del modello dei dati delle serie temporali", ha affermato l'autore senior Devavrat Shah, professore di Andrew ed Erna Viterbi in EECS e membro dell'Institute for Data, Systems, and Society e del Laboratory for Information and Decision Systems.

Ad unirsi ad Alomar e Shah sul documento è l'autore principale Anish Agrawal, un ex studente laureato EECS che è attualmente un postdoc presso il Simons Institute dell'Università della California a Berkeley. La ricerca sarà presentata alla conferenza ACM SIGMETRICS. Shah e i suoi collaboratori hanno lavorato per anni sul problema dell'interpretazione dei dati delle serie temporali, adattando diversi algoritmi e integrandoli in tspDB mentre costruivano l'interfaccia.

Circa quattro anni fa, hanno appreso di un algoritmo classico particolarmente potente, chiamato analisi dello spettro singolare (SSA), che imputa e prevede singole serie temporali. L'imputazione è il processo di sostituzione dei valori mancanti o di correzione dei valori passati. Mentre questo algoritmo richiedeva la selezione manuale dei parametri, i ricercatori sospettavano che potesse consentire alla loro interfaccia di fare previsioni efficaci utilizzando i dati delle serie temporali. Nel lavoro precedente, hanno rimosso questa necessità di intervenire manualmente per l'implementazione algoritmica.

L'algoritmo per le singole serie temporali lo ha trasformato in una matrice e ha utilizzato procedure di stima della matrice. La sfida intellettuale chiave era come adattarlo per utilizzare più serie temporali. Dopo alcuni anni di lotta, si resero conto che la risposta era qualcosa di molto semplice: "Impilare" le matrici per ogni singola serie temporale, trattarla come un'unica grande matrice e quindi applicare l'algoritmo della singola serie temporale su di essa. Questo utilizza le informazioni su più serie temporali in modo naturale.

Hanno testato l'mSSA adattato rispetto ad altri algoritmi all'avanguardia, compresi i metodi di apprendimento approfondito, su set di dati di serie temporali del mondo reale con input tratti dalla rete elettrica, dai modelli di traffico e dai mercati finanziari.

Il loro algoritmo ha sovraperformato tutti gli altri sull'imputazione e ha sovraperformato tutti gli altri algoritmi tranne uno quando si trattava di prevedere i valori futuri. I ricercatori hanno anche dimostrato che la loro versione ottimizzata di mSSA può essere applicata a qualsiasi tipo di dati di serie temporali.

"Uno dei motivi per cui penso che funzioni così bene è che il modello cattura molte dinamiche di serie temporali, ma alla fine della giornata, è ancora un modello semplice. Quando si lavora con qualcosa di semplice come questo, invece di una rete neurale che può facilmente sovradimensionare i dati, si possono effettivamente ottenere prestazioni migliori", ha affermato Alomar. Le prestazioni impressionanti di mSSA sono ciò che rende tspDB così efficace, ha spiegato Shah. Ora, il loro obiettivo è rendere questo algoritmo accessibile a tutti.

Una volta che un utente installa tspDB su un database esistente, può eseguire una query di stima con poche sequenze di tasti in circa 0,9 millisecondi, rispetto a 0,5 millisecondi per una query di ricerca standard. Gli intervalli di confidenza sono inoltre progettati per aiutare i non esperti a prendere una decisione più informata incorporando il grado di incertezza delle previsioni nel loro processo decisionale.

Ad esempio, il sistema potrebbe consentire a un non esperto di prevedere i prezzi futuri delle azioni con elevata precisione in pochi minuti, anche se il set di dati delle serie temporali contiene valori mancanti.

Ora che i ricercatori hanno dimostrato perché mSSA funziona così bene, stanno prendendo di mira nuovi algoritmi che possono essere incorporati in tspDB. Uno di questi algoritmi utilizza lo stesso modello per abilitare automaticamente il rilevamento del punto di modifica, quindi se l'utente ritiene che la sua serie temporale cambierà il suo comportamento ad un certo punto, il sistema rileverà automaticamente tale modifica e la incorporerà nelle sue previsioni.

Vogliono anche continuare a raccogliere feedback dagli attuali utenti tspDB per vedere come possono migliorare la funzionalità e la facilità d'uso del sistema, ha dichiarato Shah.

"Il nostro interesse al più alto livello è quello di rendere tspDB un successo sotto forma di un sistema open source ampiamente utilizzabile. I dati delle serie temporali sono molto importanti e questo è un bel concetto di creazione di funzionalità di previsione direttamente nel database. Non è mai stato fatto prima, e quindi vogliamo assicurarci che il mondo lo usi ", ha affermato.