Il panorama degli agenti AI basati su browser si trova ad affrontare una realtà scomoda: gli attacchi di prompt injection rappresentano una minaccia persistente che probabilmente non verrà mai eliminata completamente. OpenAI ha riconosciuto apertamente questa sfida in un post pubblicato lunedì, ammettendo che la "modalità agente" di ChatGPT Atlas amplia significativamente la superficie di attacco.
L'iniezione di prompt è una tecnica di attacco che manipola gli agenti AI inducendoli a seguire istruzioni malevole, spesso nascoste all'interno di pagine web o messaggi di posta elettronica. Secondo OpenAI, questo tipo di minaccia è paragonabile alle truffe e all'ingegneria sociale tradizionale: un problema di sicurezza destinato a persistere nel lungo termine, che richiede un rafforzamento continuo delle difese piuttosto che una soluzione definitiva. Una posizione condivisa anche dal National Cyber Security Centre britannico, che ha avvertito all'inizio del mese che questi attacchi contro le applicazioni di AI generativa potrebbero non essere mai completamente mitigati.
ChatGPT Atlas, lanciato da OpenAI lo scorso ottobre, è diventato rapidamente un banco di prova per i ricercatori di sicurezza. Nel giro di poche ore dal rilascio, erano già disponibili dimostrazioni che mostravano come bastassero poche parole inserite in un documento Google Docs per alterare il comportamento del browser sottostante. Anche Brave è intervenuta pubblicando un'analisi tecnica che evidenziava come l'iniezione indiretta di prompt rappresenti una sfida sistemica per tutti i browser potenziati con AI, incluso Comet di Perplexity.
La risposta di OpenAI a questa sfida di Sisifo si basa su un approccio proattivo: un ciclo di risposta rapida che secondo l'azienda sta già mostrando risultati promettenti nell'individuazione di strategie di attacco innovative prima che vengano sfruttate sul campo. Ma l'elemento distintivo della strategia di OpenAI è il cosiddetto "attaccante automatizzato basato su LLM", essenzialmente un bot addestrato tramite apprendimento per rinforzo a comportarsi come un hacker che cerca metodi per infiltrare istruzioni malevole verso un agente AI.
Questa tecnica, comune nei test di sicurezza AI, consente al sistema di esplorare casi limite e scenari complessi in modo rapido. Il bot sviluppato da OpenAI è in grado di simulare workflow dannosi a lungo termine che si sviluppano nell'arco di decine o addirittura centinaia di passaggi. Durante i test interni, il sistema ha identificato strategie di attacco inedite che non erano emerse né durante le campagne di red teaming condotte da esperti umani né nei report esterni di sicurezza.
In una dimostrazione pratica, OpenAI ha mostrato come l'attaccante automatizzato sia riuscito a inserire un'email malevola nella casella di posta di un utente. Quando l'agente AI ha successivamente scansionato la posta in arrivo, ha seguito le istruzioni nascoste nel messaggio e ha inviato una lettera di dimissioni invece di preparare una risposta di assenza dall'ufficio. Dopo l'aggiornamento di sicurezza implementato, la modalità agente è stata in grado di rilevare il tentativo di iniezione e segnalarlo all'utente, secondo quanto dichiarato dall'azienda.
L'approccio non è completamente dissimile da quello adottato da concorrenti come Anthropic e Google, che sostengono la necessità di difese stratificate e continuamente sottoposte a stress test. Google, ad esempio, sta concentrando i propri sforzi su controlli architetturali e a livello di policy per i sistemi agentici. Tuttavia, OpenAI non ha voluto condividere dati quantitativi sulla riduzione degli attacchi riusciti dopo l'implementazione degli aggiornamenti di sicurezza, limitandosi a confermare la collaborazione con terze parti per rafforzare Atlas contro le iniezioni di prompt già prima del lancio.
Rami McCarthy, ricercatore principale di sicurezza presso la società di cybersecurity Wiz, offre una prospettiva critica sull'efficacia delle contromisure. Secondo McCarthy, l'apprendimento per rinforzo è solo una parte della soluzione, e il vero nodo della questione sta nel bilanciamento tra autonomia e accesso. I browser agentici si trovano in una posizione particolarmente delicata: autonomia moderata combinata con accesso molto elevato a dati sensibili. Le raccomandazioni attuali riflettono questo compromesso, suggerendo di limitare l'accesso autenticato per ridurre l'esposizione e di richiedere conferme esplicite per limitare l'autonomia.
OpenAI ha implementato alcune di queste raccomandazioni: Atlas è addestrato a richiedere conferma all'utente prima di inviare messaggi o effettuare pagamenti. L'azienda consiglia inoltre agli utenti di fornire istruzioni specifiche agli agenti, evitando direttive generiche come "accedi alla mia casella email e fai quello che ritieni necessario". Istruzioni troppo ampie facilitano l'influenza di contenuti nascosti o malevoli sull'agente, anche quando sono attive misure di protezione.