I video generati dall'IA ora sono indistinguibili da quelli reali (Video)

La startup di intelligenza artificiale ElevenLabs ha presentato un'anteprima delle sue prossime innovazioni, introducendo per la prima volta effetti sonori nei video generati artificialmente.

Famosa per i suoi servizi di sintesi vocale quasi umana, ElevenLabs ha impreziosito i video creati tramite Sora di OpenAI con effetti sonori generati artificialmente.

ElevenLabs ha dichiarato di non essere ancora pronto a lanciare il suo modello text-to-sfx, ma una volta pronto sarà in grado di produrre una vasta gamma di suoni, inclusi passi, onde e ambientazioni. Fondata nel 2022, ElevenLabs è rinomata per le sue voci sintetiche estremamente realistiche, capaci di generare un parlato così naturale da risultare quasi indistinguibile da quello umano.

La startup con sede nel Regno Unito ha raggiunto lo status di unicorno, con un valore di miliardi di dollari all'inizio di quest'anno, grazie al suo recente round di finanziamento di serie B da 80 milioni di dollari. Questo annuncio è stato accompagnato dal lancio di un nuovo strumento per sincronizzare il parlato AI nei video, facilitando le traduzioni automatiche e conquistando il mercato internazionale del doppiaggio.

Sebbene esistano già alcuni modelli text-to-sfx sul mercato, come myEdit, AudioGen e Stable Audio di StabilityAI, i suoni prodotti da ElevenLabs sembrano essere tra i più naturali, sebbene non sia chiaro quanto editing sia stato coinvolto. Al momento non è stata annunciata una data precisa per il lancio del text-to-sfx, ma ElevenLabs ha aperto una lista d'attesa che richiede un prompt per la creazione di suoni.

La prossima fase potrebbe vedere lo sviluppo di strumenti in grado di analizzare automaticamente il contenuto video e aggiungere effetti sonori nei punti appropriati, e lo stesso potrebbe accadere per la musica. Attualmente, la maggior parte degli strumenti musicali basati sull'intelligenza artificiale si concentrano sul text-to-music, ma in futuro, con l'avvento della multimodalità, potrebbero espandersi dalla musica all'immagine e al video.

Uno dei sogni dell'intelligenza artificiale generativa è stato quello di creare un contenuto completo a partire da un singolo input. Al momento, questo rimane principalmente un sogno, lontano dalla realtà, ma con progressi come il text-to-sfx, il miglioramento dei video AI e la sintesi vocale, stiamo facendo passi avanti verso questo obiettivo.

Guarda su