Intel mostra un'IA che genera immagini a 360 gradi da un testo

Intel Labs ha annunciato Latent Diffusion Model for 3D (LDM3D), un nuovo modello di diffusione sviluppato in collaborazione con Blockade Labs che usa l'IA generativa per creare contenuti visivi 3D realistici a 360 gradi. Questo nuovo modello ha il potenziale per rivoluzionare la creazione dei contenuti, le applicazioni del metaverso e le esperienze digitali.

Vasudev Lal, AI/ML reasearch scientist presso gli Intel Labs, ha dichiarato: “L’AI generativa mira ad aumentare e migliorare la creatività umana e a risparmiare tempo. Tuttavia, la maggior parte dei modelli di AI generativa oggi disponibili si limita a generare immagini 2D; solo pochissimi sono in grado di generare immagini 3D da istruzioni testuali. A differenza dei modelli esistenti di latent stable diffusion, LDM3D consente di generare un'immagine e una mappa di profondità da un dato messaggio di testo utilizzando quasi lo stesso numero di parametri. Fornisce una profondità relativa più accurata per ogni pixel rispetto ai metodi standard di post-elaborazione per la stima della profondità e consente agli sviluppatori di risparmiare molto tempo nella creazione delle scene".

Guarda su

Molti dei modelli attuali di IA generativa si "limitano" a creare immagini in due dimensioni, LDM3D invece permette di generare sia un'immagine sia una mappa di profondità, a partire da una singola indicazione testuale, migliorando enormemente il realismo e l'immersività delle immagini create. Il modello usa inoltre quasi lo stesso numero di parametri della diffusione stabile latente, ma fornisce una profondità relativa più accurata per ogni pixel rispetto ai metodi post-elaborazione standard che vengono usati per la stima della profondità.

LDM3D sfrutta un dataset con 10.000 campioni del database LAION-400M, che contiene oltre 400 milioni di coppie immagine-didascalia ed è stato creato per scopi di ricerca. Il team di ricercatori ha usato il modello di stima a grande profondità DPT (Dense Prediction Transformer), anch'esso sviluppato in precedenza presso Intel Labs, per annotare il corpus di addestramento; il modello DPT-large fornisce una profondità relativa estremamente accurata per ogni pixel in un'immagine. LDM3D viene addestrato su un supercomputer Intel IA con processori Intel Xeon e acceleratori Intel Haban Gaudi.

I ricercatori hanno dato vita a DepthFusion per dimostrare il potenziale del nuovo modello: si tratta di una applicazione che sfrutta immagini standard RGB in 2D e mappe di profondità, per creare un'esperienza a 360 gradi interattiva. L'app sfrutta a sua volta TouchDesigner, un linguaggio di programmazione visiva basato su nodi per contenuti multimediali interattivi in tempo reale, per trasformare le indicazioni testuali in esperienze digitali interattive.

Intel continuerà lo sviluppo di LDM3D e DepthFusion, inoltre portando avanti la volontà di un ecosistema aperto, renderà LDM3D open source tramite HuggingFace, così che i ricercatori e gli sviluppatori che operano nel campo delle intelligenze artificiali possano migliorarlo ulteriormente e renderlo adatto ad applicazioni personalizzate.