Google si trova a fronteggiare un paradosso tecnologico di sua stessa creazione: dopo aver integrato lo scorso settembre un modello di intelligenza artificiale Gemini nel browser Chrome, la multinazionale di Mountain View è ora costretta ad aggiungere un secondo sistema basato su AI per contenere i rischi di sicurezza generati dal primo.
L'intervento, annunciato lunedì dall'ingegnere della sicurezza Nathan Parker, evidenzia come l'adozione accelerata di agenti autonomi nei browser stia creando vulnerabilità potenzialmente più pericolose dei problemi che promette di risolvere.
Dopo aver investito miliardi di dollari in infrastrutture e servizi di intelligenza artificiale, Google si trova nella posizione di dover convincere utenti e aziende che i benefici superano i rischi. Una posizione diventata più difficile da sostenere da quando la società di consulenza Gartner ha raccomandato alle imprese di bloccare completamente tutti i browser dotati di capacità AI, almeno nel breve termine.
Il problema centrale si chiama "indirect prompt injection" e rappresenta, secondo Parker, "la principale nuova minaccia per tutti i browser agentici". Il meccanismo è insidioso: un modello linguistico, navigando autonomamente sul web senza supervisione umana diretta, può imbattersi in contenuti malevoli appositamente costruiti per manipolarne il comportamento. Questi contenuti possono trovarsi in siti dannosi, iframe di terze parti o persino in recensioni generate dagli utenti. Una volta esposto, l'agente può ignorare le sue protezioni di sicurezza e compiere azioni indesiderate come avviare transazioni finanziarie o esfiltrare dati sensibili.
La soluzione proposta da Google prevede l'implementazione di quello che viene definito "User Alignment Critic", essenzialmente un secondo modello di machine learning con funzioni di supervisione. Questo critico digitale interviene dopo che l'agente principale ha completato la pianificazione delle azioni, verificando se ciascuna operazione proposta corrisponda effettivamente agli obiettivi dichiarati dall'utente. In caso di disallineamento, il sistema ha potere di veto. Parker assicura che il meccanismo di oversight sia stato progettato in modo tale da non poter essere compromesso dall'esposizione a contenuti malevoli, sebbene non fornisca dettagli tecnici su come questo risultato sia stato ottenuto.
L'approccio di utilizzare un modello per moderarne un altro non è una novità assoluta nel settore. La tecnica, suggerita dallo sviluppatore Simon Willison nel 2023 e formalizzata quest'anno in un paper di Google DeepMind con l'acronimo CaMeL (CApabilities for MachinE Learning), sta diventando uno schema accettato tra le aziende AI. Tuttavia, resta da verificare sul campo se questa architettura a doppio livello possa effettivamente prevenire attacchi sofisticati.
Google sta anche estendendo le capacità di isolamento delle origini di Chrome alle interazioni guidate dall'agente. Il modello di sicurezza del web si basa sul principio della same-origin policy, secondo cui i siti non dovrebbero accedere a dati provenienti da domini diversi. Chrome applica la Site Isolation, che separa i dati cross-site in processi diversi. La tecnologia chiamata Agent Origin Sets mira a impedire che l'AI integrata in Chrome interagisca con dati provenienti da origini arbitrarie. Secondo quanto risulta, gli sviluppatori hanno già incorporato parte di questo lavoro nelle versioni correnti del browser, mentre altre funzionalità agentiche appariranno in release future.
Per mitigare ulteriormente i rischi, l'azienda sta implementando una serie di controlli manuali che, paradossalmente, riducono parte dell'automazione che l'intelligenza artificiale dovrebbe fornire. L'agente richiederà conferma prima di navigare verso siti che gestiscono dati sensibili come banche o portali medici, prima di utilizzare il Google Password Manager per accedere a un sito, e prima di completare acquisti online, inviare messaggi o altre azioni consequenziali. In alcuni casi, all'utente verrà semplicemente chiesto di completare manualmente il passaggio finale.
L'aggiornamento del Vulnerability Rewards Program con premi fino a 20.000 dollari per chi scopre falle nelle protezioni agentiche rappresenta un riconoscimento implicito della complessità del problema.
Resta aperto l'interrogativo su quanto l'industria tecnologica sia disposta a rallentare la corsa all'implementazione di agenti AI per garantire standard di sicurezza adeguati, o se continuerà a privilegiare la velocità di deployment rispetto alla robustezza dei sistemi, lasciando utenti e aziende a fare da beta tester involontari di tecnologie ancora immature dal punto di vista della sicurezza.