La startup OpenAI, famosa per il la sua intelligenza artificiale DALL-E, ha da poco annunciato Point-E, con il quale è possibile creare dei modelli 3D da prompt. Il software compone gli oggetti attraverso dei punti dopo aver inserito il testo, risultando notevolmente più veloce di proposte concorrenti, come DreamFusion di Google o Magic3D di Nvidia: il tempo richiesto per il processo è di massimo due minuti, mentre DreamFusion arriva a impiegare delle ore.

Come spiegato dal team di ricerca, con a capo Alex Nichol, Point-E può “gestire una mole di dati maggiore, comprendenti testo e immagini, rispetto ad altri sistemi simili, il che gli permette di elaborare richieste più complesse, mentre il nostro modello viene addestrato su un set di dati più piccolo di coppie comprendenti immagini e modelli 3D. Per produrre un oggetto 3D da un un testo, prima campioniamo un’immagine utilizzando il modello testo-immagine, quindi campioniamo un oggetto 3D condizionato dall’immagine campionata. Entrambi questi passaggi possono essere eseguiti in un certo numero di secondi, e non richiedono elaborate procedure di ottimizzazione.”

Fonte: OpenAI

In pratica, inserendo ad esempio un testo per la creazione di un modello 3D di un “gatto che mangia una piadina”, Point-E inizierà a generare un primo rendering tridimensionale sintetico, procedendo a creare l’immagine attraverso una nuvola 3D di punti che usa una serie di modelli di diffusione. Il modello verrà inizialmente realizzato in maniera grossolana, per poi essere rifinito per formare con più precisione l’oggetto desiderato.

Ogni modello di diffusione è stato istruito su milioni di modelli 3D, ciascuno di questi convertito in un formato standard. Come spiegato dal team, questo metodo non è veloce come altre tecniche più all’avanguardia, ma è in grado di produrre più campioni in minor tempo. OpenAI ha già pubblicato il codice su GitHub, rendendolo disponibile a chiunque volesse compilarlo e provarlo.