L'IA Stable Diffusion ora può creare video a partire da immagini fisse

Il nuovo modello Stable Video Diffusion permette di creare brevi clip video partendo da un'immagine statica.

Avatar di Marco Pedrani

a cura di Marco Pedrani

Managing Editor

Stability AI ha rilasciato il nuovo Stable Video DIffusion, uno strumento basato su intelligenza artificiale che permette di trasformare un’immagina statica in un breve video. Si tratta di un’anteprima dei modelli IA che sfruttano la tecnica image-to-video, che possono essere eseguiti anche in locale sfruttando una scheda video NVIDIA.

Al momento ci sono due modelli, SVD e SVD-XT. Il primo produce brevi video di 14 fotogrammi, mentre il secondo genera 25 fotogrammi. Entrambi operano a velocità variabile dai 3 ai 30 FPS e creano clip di 2-4 secondi, con risoluzione 576 x 1024 pixel.

Ars Technica ha eseguito dei test in locale ed è riuscita a creare un video con il modello SVD in circa 30 minuti, usando una RTX 3060. Stable Video Diffusion è però accessibile a tutti tramite Hugging Face o Replicate. La qualità dei risultati è variabile, ma generalmente l’IA anima solo una parte dell’immagine, lasciando il resto statico.

Stability AI ha sottolineato che il modello è ancora in una fase iniziale ed è destinato unicamente a scopi di ricerca: “Questo modello non è destinato a utilizzi reali o commerciali in questa fase. I vostri contributi e feedback sulla sicurezza e sulla qualità sono importanti per perfezionare questo modello per la sua eventualità rilascio”.

L’azienda non ha rivelato il set di dati usato per addestrare Stable Video Diffusion, ma si è limitata a dire che sono stati usati circa 600 milioni di campioni organizzati nel Large Video Dataset (LVD), composto da 580 milioni di clip per una durata totale di 212 anni.

Stability AI ha poi annunciato di essere al lavoro anche su un modello capace di creare un video partendo da un testo, che permetterà di creare brevi clip partendo da una descrizione scritta, anziché da una immagine.