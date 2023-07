Negli ultimi due anni, i generatori di immagini basati sull’intelligenza artificiale sono diventati sempre più comuni e diffusi, vuoi per l’ampia disponibilità, vuoi per il costante bombardamento di AD che invitano a provarli, vuoi per l’evidente diminuzione dei limiti tecnici e delle risorse necessarie per realizzare risultati, per lo meno, accettabili.

Volenti o dolenti, i generatori di immagini basati sull’intelligenza artificiale, sono stati utilizzati praticamente da tutti i principali attori del panorama tecnologico, tra cui anche Google e Microsoft, oltre che da innumerevoli startup che cercano, oramai da mesi, di accaparrarsi una fetta del, sempre più redditizio, settore dell’intelligenza artificiale generativa.

Questa invasione di generatori di immagini, però, non sta a significare che questi ultimi siano privi di difetti o ineccepibili dal punto di vista del risultato finale, anzi potremmo dire tranquillamente che risulta ancora lampante quando un’immagine è generata da un’intelligenza artificiale, vuoi per l’incapacità di processare alcuni aspetti del corpo umano correttamente, vuoi per alcune sbavature che, seppur piccole, risultano ancora presenti.

Rimarcando proprio questi difetti, tutt’oggi ancora presenti nei generatori di immagini attraverso l’intelligenza artificiale, Meta sostiene di aver fatto un passo avanti con il suo nuovo CM3Leon (un nome che si ispira all parola inglese “chameleon”, camaleonte), un modello di intelligenza artificiale che, secondo l’azienda, raggiunge risultati avveniristici nella generazione di immagini in seguito a una descrizione testuale.

CM3Leon si distingue, inoltre, per essere uno dei primi generatori in grado di realizzare delle didascalie per le immagini, ponendo le basi per modelli di comprensione delle immagini più capaci in futuro.

“Con le capacità di CM3Leon, gli strumenti di generazione di immagini possono produrre immagini più coerenti che seguono meglio le richieste di input”, ha scritto Meta in un post sul blog condiviso con TechCrunch all’inizio di questa settimana. “Crediamo che le ottime prestazioni di CM3Leon in una varietà di compiti siano un passo avanti verso la generazione e la comprensione di immagini di maggiore fedeltà”.

La maggior parte dei moderni generatori di immagini, tra cui DALL-E 2 di OpenAI, Imagen di Google e Stable Diffusion, si basano su un processo chiamato diffusione creativa. Questo sistema, molto banalmente, sottrare gradualmente il rumore da un’immagine di partenza interamente composta da esso, avvicinandola sempre di più alla descrizione contenuta nel testo.

I risultati sono, come ben sappiamo, impressionanti ma la diffusione creativa è un processo che richiede un elevato volume di calcolo, il quale rende il suo funzionamento talmente costoso e lento, da renderlo impraticabile nella maggior parte delle applicazioni in tempo reale.

CM3Leon è invece un modello trasformatore, che sfrutta un meccanismo chiamato “attenzione” per valutare la rilevanza dei dati in ingresso, come testo o immagini. L’attenzione, e le altre caratteristiche che contraddistinguono i “trasformatori”, permettono di aumentare la velocità di addestramento, in modo da renderli più facilmente parallelizzabili. In altre parole, è possibile addestrare “trasformatori” sempre più grandi in grado di elaborare volumi di calcolo in maniera molto più snella.

Meta sostiene che CM3Leon è ancora più efficiente degli attuali trasformatori presenti nel settore, in quanto richiede un volume di calcolo cinque volte inferiore alla media, oltre che un ridotto quantitativo di dati per essere addestrato.

Per addestrare CM3Leon, Meta ha utilizzato un dataset di milioni di immagini concesse in licenza da Shutterstock. La versione più efficiente di CM3Leon ha, attualmente, 7 miliardi di parametri, più del doppio di DALL-E 2. Al momento Meta non ha dichiarato se, e quando, rilascerà il suo nuovo generatore di immagini, risulterà curioso, però, scoprire come risponderà quella concorrenza che accantonò i “trasformatori” a favore di altri modelli.