OpenAI continua la sua battaglia contro Google nel mondo dell'IA, stavolta concentrandosi sulla generazione di immagini con il lancio di GPT Image 1.5, un modello che promette velocità quadruplicate rispetto alla versione precedente e capacità di editing decisamente più precise. L'annuncio arriva in un momento cruciale per l'azienda di Sam Altman, che secondo indiscrezioni interne emerse nei giorni scorsi avrebbe dichiarato uno stato di "codice rosso" per rispondere all'avanzata di Google Gemini nel mercato dei modelli multimodali. La nuova release, disponibile da martedì per tutti gli utenti ChatGPT e tramite API, rappresenta il secondo aggiornamento significativo del sistema di generazione immagini di OpenAI dopo il debutto di GPT Image 1 lo scorso aprile.
Google ha conquistato posizioni di vertice nella classifica LMArena con Gemini 3, il suo modello di punta più recente, e soprattutto con Nano Banana Pro, l'ultima iterazione del suo generatore di immagini che ha ottenuto risultati incredibili e dominato i benchmark di settore. OpenAI aveva inizialmente pianificato un lancio per inizio gennaio, ma ha anticipato l'annuncio di diverse settimane, evidentemente sotto pressione per mantenere la competitività dopo che persino il lancio di GPT-5.2 la scorsa settimana non è bastato a recuperare terreno nelle classifiche indipendenti.
La principale innovazione di GPT Image 1.5 risiede nella capacità di seguire istruzioni complesse mantenendo coerenza visiva durante le modifiche iterative. Finora, i sistemi di generazione immagini basati su AI hanno mostrato una debolezza critica: quando vengono richieste modifiche specifiche come "regola l'espressione facciale" o "rendi l'illuminazione più fredda", i modelli tendono a reinterpretare l'intera composizione, compromettendo alcuni elementi chiave, come ad esempio le somiglianze dei volti. Il nuovo sistema di OpenAI introduce controlli granulari per l'editing in post-produzione, permettendo di modificare dettagli specifici preservando la consistenza generale dell'immagine.
Sul fronte dell'esperienza utente, OpenAI ha riprogettato l'interfaccia di ChatGPT introducendo un punto di accesso dedicato per la generazione di immagini nella barra laterale. Fidji Simo, CEO delle applicazioni di OpenAI, ha descritto la nuova implementazione come "più simile a uno studio creativo", con schermate rinnovate per la visualizzazione e l'editing che facilitano la creazione di contenuti visivi corrispondenti alla visione dell'utente. La piattaforma includerà anche prompt di tendenza e filtri preimpostati per offrire ispirazione immediata agli utenti meno esperti.
Parallelamente al generatore di immagini, OpenAI sta introducendo elementi visivi più pervasivi nell'intera esperienza ChatGPT. Le query di ricerca mostreranno più contenuti grafici con fonti chiaramente identificate, funzionalità particolarmente utile per operazioni come conversioni di unità di misura o verifiche di risultati sportivi. L'obiettivo dichiarato è ridurre la distanza tra l'idea mentale dell'utente e la sua realizzazione concreta, privilegiando rappresentazioni visive quando queste comunicano informazioni in modo più efficace del solo testo.