Google ha scelto giovedì scorso di anticipare OpenAI con una mossa tattica che testimonia l'intensificarsi della competizione nel settore degli agenti AI: il rilascio di una versione completamente ripensata di Gemini Deep Research, ora basata sul modello fondazionale Gemini 3 Pro. La strategia di Mountain View non si limita a un semplice aggiornamento tecnologico, ma rappresenta un cambio di paradigma nell'approccio agli agenti di ricerca autonomi, con l'introduzione delle nuove Interactions API che promettono di democratizzare l'accesso a capacità di reasoning avanzate per gli sviluppatori terzi.
La novità principale risiede proprio nell'apertura dell'ecosistema: Gemini Deep Research non è più confinato alla generazione di report di ricerca preconfezionati, ma diventa un componente integrabile in applicazioni di terze parti. Le Interactions API annunciate contestualmente offrono agli sviluppatori un controllo granulare sulle capacità di ricerca dell'agente, un passaggio cruciale nell'era dell'AI agentica dove l'autonomia decisionale dei modelli linguistici diventa sempre più rilevante per applicazioni mission-critical.
Dal punto di vista tecnico, l'agente è ottimizzato per gestire richieste con contesti estremamente ampi e sintetizzare volumi massicci di informazioni. Google rivendica casi d'uso che spaziano dalla due diligence finanziaria alla ricerca sulla tossicità farmacologica, settori dove l'accuratezza delle informazioni non è negoziabile. L'integrazione prevista con Google Search, Google Finance, l'app Gemini e NotebookLM prefigura uno scenario in cui la ricerca tradizionale viene progressivamente mediata da agenti autonomi piuttosto che da interazioni umane dirette.
Il problema delle allucinazioni degli LLM acquisisce infatti una dimensione critica quando si parla di agenti autonomi che operano su archi temporali prolungati. In un processo di reasoning distribuito su minuti o addirittura ore, con decine o centinaia di scelte intermedie, basta una singola allucinazione per invalidare l'intero output. La capacità di Gemini 3 Pro di mantenere coerenza fattuale durante catene di ragionamento estese rappresenta quindi un requisito architetturale fondamentale, non un semplice miglioramento incrementale.
Per validare le prestazioni del nuovo agente, Google ha introdotto DeepSearchQA, un benchmark open source progettato specificamente per valutare agenti su compiti di ricerca multi-step complessi. L'azienda ha inoltre testato Deep Research su Humanity's Last Exam, un benchmark indipendente che sfida i modelli con domande di cultura generale estremamente specifiche, e su BrowserComp, focalizzato su operazioni agentiche basate su browser.
I risultati mostrano Deep Research in testa sul proprio benchmark e su Humanity's Last Exam, con ChatGPT 5 Pro di OpenAI come sorprendente secondo classificato. Interessante notare come il modello di OpenAI abbia invece superato marginalmente Google su BrowserComp, suggerendo punti di forza differenziati nelle capacità di navigazione autonoma. Tuttavia, questi confronti sono diventati obsoleti nel giro di poche ore.
Proprio nella stessa giornata, OpenAI ha lanciato l'attesissimo GPT 5.2, nome in codice "Garlic", rivendicando superiorità sui rivali su una serie di benchmark consolidati, incluso uno proprietario. Il tempismo della mossa di Google appare tutt'altro che casuale: anticipare di poche ore l'annuncio di OpenAI rappresenta una strategia comunicativa mirata a non cedere completamente il palcoscenico mediatico alla concorrenza. Questo ping-pong di annunci riflette una competizione che si è spostata dal piano puramente tecnico a quello della percezione di leadership nell'AI, dove ogni rilascio diventa un'occasione per riaffermare il proprio posizionamento tecnologico.