Google, nel corso del 2023, ha presentato l'innovativo PaLM 2 e i modelli linguistici Gemini, sottolineando la natura multimodale della sua intelligenza artificiale. VideoPoet, però, ha posto Google direttamente sul podio, in quanto è la prima grande azienda a presentare un'intelligenza artificiale in grado di generare video.
I modelli linguistici analoghi a GPT-4 di ChatGPT hanno fino ad ora eccelso principalmente nella produzione di testi, ma VideoPoet di Google cambia completamente le carte in tavola, aprendo la strada alla generazione di video attraverso prompt basati su testo.
La differenza chiave di VideoPoet, rispetto alle IA che generano brevi video molto simili a delle GIF, risiede nella capacità di creare scene con ampi movimenti, superando i limiti dei suoi predecessori.
Basta descrivere una scena, anche estremamente fantasiosa, e in pochi secondi si otterrà un video pronto per la visualizzazione. Chi ha sperimentato generatori d'immagini basati sull'IA come Midjourney o DALL-E 3 conoscerà già la dinamica di VideoPoet, il quale può, inoltre, modificare contenuti video già esistenti, riempiendo vuoti o eseguendo altre manipolazioni richieste.
Nonostante Google abbia sostenuto startup come Runway nel campo della generazione di video basati sull'IA, VideoPoet è frutto degli sforzi interni dell'azienda e ha coinvolto ben 31 ricercatori della sezione Google Research.
Dalla descrizione fornita da Google, VideoPoet si distingue dai generatori convenzionali di testo-immagine e testo-video. A differenza di modelli come Midjourney, VideoPoet non si affida a un modello di diffusione per generare immagini da rumore casuale, garantendo una rappresentazione più realistica del movimento e della coerenza temporale, fondamentali per i contenuti video.
Questo modello si basa sulla tecnologia di base di ChatGPT e Google Bard, prevedendo non solo come le parole si uniscono per formare frasi, ma anche frammenti di video e audio, oltre al testo.
Il processo di addestramento è stato intensivo, coinvolgendo la traduzione di immagini, frame video e clip audio in un linguaggio comune, chiamato Token. Il risultato? VideoPoet è in grado di prevedere i Token video come un modello LLM prevederebbe i Token di testo.
Le capacità di VideoPoet vanno oltre la generazione di video da testo, permettendo modifiche, applicazione di stili e cambiamenti di movimento su video esistenti. Google ha dimostrato la versatilità di VideoPoet con esempi di un procione che balla in vari stili.
Nonostante Google abbia mostrato esempi delle capacità di VideoPoet, non ha annunciato una data di rilascio o un modello di accesso. Considerando la complessità computazionale delle immagini e dei video generati dall'IA, è probabile che il modello venga offerto tramite un sistema di abbonamento come altri generatori simili.