L'IA di Google sta per entrare in una fase completamente nuova con l'introduzione di sistemi capaci di interagire direttamente con le interfacce utente, proprio come farebbe un essere umano. Google ha appena reso disponibile per gli sviluppatori l'anteprima di Gemini 2.5 Computer Use, un modello specializzato che rappresenta il cuore tecnologico dietro Project Mariner e le funzionalità di AI Mode. Si tratta di un salto qualitativo significativo nel panorama dell'automazione digitale, dove l'IA non si limita più a fornire risposte testuali ma può effettivamente "navigare" e operare sui siti web.
Come funziona l'intelligenza artificiale che naviga sul web
Il meccanismo alla base di questa tecnologia si articola attraverso un ciclo continuo di azioni che ricorda il modo in cui un utente esperto interagirebbe con un computer. Il processo inizia quando il sistema riceve una richiesta che include la richiesta dell'utente, uno screenshot dell'ambiente di lavoro e una cronologia delle azioni recenti. L'IA analizza questi elementi e genera una risposta sotto forma di chiamata a funzione, che può tradursi in azioni concrete come cliccare su un pulsante o digitare del testo.
Una volta eseguita l'azione, il sistema cattura un nuovo screenshot dell'interfaccia grafica insieme all'URL corrente, inviando queste informazioni nuovamente al modello Computer Use. Questo ciclo si ripete fino al completamento dell'attività richiesta, creando un flusso di lavoro automatizzato che può gestire compiti complessi su più pagine web.
Capacità operative e performance sui dispositivi
Le competenze di Gemini 2.5 Computer Use vanno ben oltre il semplice clicking. Il modello è in grado di eseguire navigazione avanti e indietro, ricerche web, spostamenti verso URL specifici, passaggio del cursore su elementi, combinazioni di tasti, scorrimento delle pagine e operazioni di trascinamento e rilascio. Google ha ottimizzato principalmente questo sistema per i browser web, ma ha dimostrato risultati promettenti anche su dispositivi mobili attraverso il benchmark "AndroidWorld".
Confrontato con le soluzioni di Claude e OpenAI, Gemini 2.5 Computer Use ha mostrato performance superiori sia sui benchmark di controllo web che mobili. Particolarmente interessante è il fatto che Google rivendica la leadership qualitativa nel controllo dei browser con la latenza più bassa del settore, un aspetto cruciale per l'esperienza utente in applicazioni real-time.
Esempi pratici e casi d'uso concreti
Per dimostrare le potenzialità del sistema, Google ha condiviso due esempi pratici accelerati a velocità triplicata. Il primo scenario coinvolge un'attività complessa di gestione clienti: il sistema deve recuperare dettagli di animali domestici residenti in California da un sito web, aggiungerli come ospiti in un CRM di spa per animali, e programmare un appuntamento di follow-up con uno specialista per una data specifica dopo le 8 del mattino.
Il secondo esempio riguarda l'organizzazione di contenuti digitali per un club artistico, dove l'IA deve riordinare note adesive virtuali in categorie appropriate su una bacheca digitale caotica. Questi casi d'uso evidenziano come la tecnologia possa gestire flussi di lavoro multi-step che richiederebbero normalmente intervento umano significativo.
Fondamenta tecnologiche e applicazioni interne
Il modello si basa sulle capacità di comprensione visiva e ragionamento di Gemini 2.5 Pro, e versioni di questa tecnologia alimentano già Project Mariner e le funzionalità agentiche di AI Mode. Internamente, Google utilizza questo sistema per accelerare i test delle interfacce utente nello sviluppo software, dimostrando la maturità della soluzione anche in contesti professionali.
L'azienda ha inoltre avviato un programma di accesso anticipato per sviluppatori di terze parti che stanno costruendo assistenti e strumenti di automazione dei flussi di lavoro. Gemini 2.5 Computer Use è disponibile in anteprima pubblica attraverso l'API Gemini in Google AI Studio e Vertex AI, con possibilità di testarlo immediatamente in un ambiente demo ospitato da Browserbase.
Questa evoluzione rappresenta un punto di svolta nel rapporto tra intelligenza artificiale e interfacce digitali, aprendo scenari inediti per l'automazione di attività complesse che fino a oggi richiedevano necessariamente l'intervento umano.