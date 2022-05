Non è sicuramente la prima volta che sentiamo parlare di intelligenze artificiali in grado di realizzare immagini partendo da una descrizione testuale. Una delle più famose è DALL-E di OpenAI (irresistibile il nome che omaggia Dalì e il tenero Wall-E!), che crea immagini partendo da delle didascalie attraverso una rete neurale appositamente addestrata. Peccato che non sia disponibile al pubblico.

Esistono altri servizi, più o meno efficaci nella produzione di immagini tramite IA e interpretazione del testo, come Hotpot che crea delle opere d’arte partendo da una descrizione a scopo commerciale (tra le altre cose, è possibile creare NFT), ma niente sembra paragonarsi a quanto definito da Google come un sistema in grado di offrire “un livello senza precedenti di fotorealismo e una profonda comprensione del linguaggio“.

Chi resiste a un gatto sullo skate con un cappello creato da un'IA? - Fonte: Imagen

Stiamo parlando del modello di diffusione Imagen di cui potete leggere il paper ufficiale. Realizzato dal Brain Team di Google Research, anche questo sistema di intelligenza artificiale crea immagini partendo da un input di testo, con risultati davvero sorprendenti.

I ricercatori hanno creato DrawBench, un benchmark composto da 200 descrizioni testuali immesse in Imagen e altri modelli di confronto, fra cui DALL-E 2 e VQGAN+CLIP. Le immagini sono state valutate da un gruppo di persone che, a detta di Google, hanno preferito Imagen agli altri modelli, sia per la qualità dei campioni che della corrispondenza fra testo e immagine.

Nemmeno Imagen è al momento disponibile al pubblico, soprattutto perché il modello, come molti altri, è stato addestrato su grandi insiemi di dati ricavati dal web e non affidati a curatori, di conseguenza, alcuni dataset hanno introdotto elementi indesiderati, fra cui immagini pornografiche, linguaggio scurrile, stereotipi sociali negativi e razzismo. Dunque, al fine di prevenire utilizzi impropri del modello, i ricercatori hanno deciso di non renderlo disponibile pubblicamente, almeno per il momento.

In futuro, il gruppo auspica di riuscire a creare un framework che consenta un utilizzo responsabile del modello, in grado di bilanciare le verifiche esterne e i possibili rischi di un accesso aperto e senza limiti.

Al momento, potete provare Imagen in forma limitata, basta visitare il sito web e sperimentare il modello con alcune frasi preselezionate. I risultati sono davvero interessanti.