Nvidia converte video normali in slow motion 480fps con l'IA

Un team di ricercatori di Nvidia ha dimostrato che è possibile usare il deep learning per produrre video in slow-motion (240/480 fps) da un video a velocità tradizionale (30/60 fps). La ricerca è stata presentata alla Conference on Computer Vision and Pattern Recognition (CVPR), mentre il documento è disponibile a questo indirizzo.

Il risultato è un filmato di alta qualità che ricalca i metodi attuali, come si può vedere nel seguente video:

"Ci sono molti momenti memorabili nella vita che vorreste registrare al rallentatore perché sono difficili da vedere chiaramente con gli occhi: la prima volta che un bambino cammina, cane che prende una palla", scrivono i ricercatori nel documento.

"Anche se è possibile riprendere video con 240 fotogrammi al secondo con un cellulare, registrare tutto a un frame rate elevato non è possibile in quanto richiede grandi memorie e un uso intensivo dei dispositivi mobili", ha spiegato il team.

Con questa nuova soluzione gli utenti possono rallentare i loro video dopo la ripresa. Usando GPU NVIDIA Tesla V100 e il framework di deep learning PyTorch accelerato con cuDNN, il team ha addestrato il proprio sistema su oltre 11.000 video di attività giornaliere e sportive, riprese a 240 fotogrammi al secondo.

Una volta addestrata, la rete neurale convoluzionale è stata in grado di prevedere come sarebbe stato il fotogramma in mezzo tra due altre immagini se fosse stato girato a una frequenza fotogrammi più alta. Il sistema, di conseguenza, "riempie i fotogrammi in mezzo e li sovrappone insieme per ottenere un nuovo video più lento", spiegano i ricercatori.

Secondo Nvidia produrre risultati di alta qualità come questi può essere difficile per un paio di motivi: in primo luogo, alcuni oggetti nei video si spostano semplicemente molto velocemente e può essere difficile prevedere dove stanno andando. In secondo luogo, quando gli oggetti si spostano in un video, a volte possono oscurare altri oggetti o rivelare oggetti precedentemente oscurati. Di conseguenza, il sistema deve essere in grado di gestire oggetti che possono essere visibili in un frame ma non in quello successivo. Questo metodo tiene conto di entrambe queste sfide.

Mentre le applicazioni per questa tecnologia non mancano, rimane una ricerca. Nvidia non ha ancora lavorato a un modo per ottimizzarla in modo da metterla nelle mani dei consumatori - tramite uno smartphone ad esempio. "La potenza di calcolo richiesta per farlo è più di quella che ha un telefono, ma potete immaginare di fare l'upload del video su un server - ci sono modi per far sì che gli utenti la usino".