Un team di ricercatori della Carnegie Mellon University ha sviluppato LegoGPT, un modello di intelligenza artificiale capace di trasformare semplici descrizioni testuali in progetti LEGO originali e funzionali. Questa innovazione rappresenta un passo significativo nell'intersezione tra AI generativa e design tridimensionale, offrendo possibilità creative sia ai bambini che agli adulti appassionati dei celebri mattoncini. Il sistema non si limita a generare disegni, ma crea progetti strutturalmente validi che possono essere assemblati fisicamente.
Il cuore dell'innovazione risiede nella metodologia di addestramento utilizzata. I ricercatori hanno alimentato il sistema con un dataset di oltre 47.000 strutture LEGO che compongono più di 28.000 oggetti tridimensionali unici. Questo archivio, denominato StableText2Lego, include modelli di librerie, tavoli, sedie, automobili, navi, chitarre e molti altri oggetti quotidiani tradotti nel linguaggio dei mattoncini colorati.
Il processo di creazione è particolarmente sofisticato: quando un utente inserisce un prompt testuale, LegoGPT converte prima il testo in un design LEGO, poi lo trasforma in token testuali ordinati dal basso verso l'alto. La previsione sequenziale dei mattoncini necessari avviene tramite un modello autoregressivo che verifica costantemente la validità di ogni elemento aggiunto.
Per garantire che i progetti generati siano effettivamente costruibili, il sistema incorpora un controllo di validità e un meccanismo di "rollback" consapevole della fisica. Questi componenti assicurano che nel design finale non ci siano mattoncini sovrapposti o elementi fluttuanti privi di supporto.
La trasformazione dal prompt testuale alla costruzione LEGO avviene attraverso varie fasi tecniche. Inizialmente, l'input viene convertito in una mesh ShapeNetCore, che viene poi inserita in una griglia voxel 20 x 20 x 20 per determinare la disposizione iniziale dei mattoncini. Le variazioni di questo layout vengono generate mantenendo la forma complessiva, mentre i design instabili vengono scartati. I progetti rimanenti vengono renderizzati da 24 angolazioni diverse, e GPT-4o genera descrizioni per il risultato finale.
La versatilità del sistema è uno dei suoi punti di forza più notevoli. LegoGPT può essere abbinato a modelli di visione artificiale o elaborazione delle immagini, permettendo agli utenti di fotografare i propri mattoncini disponibili e ricevere suggerimenti su cosa costruire con essi. Questa funzionalità trasforma potenzialmente ogni collezione disordinata di LEGO in infinite possibilità creative.
In uno spirito di condivisione che caratterizza molti progetti accademici all'avanguardia, il team della Carnegie Mellon ha reso disponibile gratuitamente su GitHub non solo lo strumento, ma anche il dataset, il codice e i modelli utilizzati. Questa decisione apre la strada a future innovazioni da parte della comunità di sviluppatori.
Una possibile evoluzione potrebbe essere la conversione di LegoGPT in un'applicazione AI scaricabile con una libreria di mattoncini personalizzabile. Questo permetterebbe agli utenti di adattare le creazioni alle proprie collezioni specifiche di LEGO, massimizzando l'utilità pratica dello strumento.
La peculiarità più interessante di LegoGPT risiede nella sua capacità di produrre design costruibili sia da esseri umani che da robot. Questa caratteristica suggerisce potenziali applicazioni future nell'automazione della costruzione di modelli complessi o nell'assistenza educativa per l'apprendimento delle competenze spaziali e ingegneristiche.
L'addestramento progressivo del modello assicura che ogni mattoncino aggiunto sia coerente con la struttura esistente, mimando il processo umano di costruzione dal basso verso l'alto. Quando il sistema rileva potenziali instabilità, torna automaticamente all'ultimo stato stabile e riprende la generazione da quel punto, garantendo che il prodotto finale soddisfi i requisiti fisici del mondo reale.