Gli agenti di intelligenza artificiale che operano autonomamente sul cloud rappresentano una frontiera completamente nuova per i cyberattacchi, dove i tradizionali sistemi di difesa aziendale risultano completamente ciechi. La scoperta di una vulnerabilità denominata ShadowLeak ha dimostrato come sia possibile manipolare ChatGPT per sottrarre dati sensibili dalle caselle email degli utenti senza lasciare alcuna traccia visibile, sfruttando le capacità di ricerca autonoma dell'agente Deep Research di OpenAI. Questa minaccia segna un'evoluzione significativa rispetto agli attacchi tradizionali, poiché l'esfiltrazione avviene interamente dall'infrastruttura cloud del provider, rendendo impossibile il rilevamento attraverso i normali strumenti di sicurezza perimetrali.
L'invisibilità dell'attacco server-side
I ricercatori di Radware hanno identificato una tecnica di attacco che sfrutta il funzionamento stesso di Deep Research, l'agente ChatGPT progettato per navigare autonomamente sul web per 5-30 minuti creando report dettagliati con fonti verificate. A differenza delle precedenti ricerche che si basavano sul rendering di immagini lato client, ShadowLeak opera esclusivamente nell'infrastruttura cloud di OpenAI, risultando completamente invisibile alle difese locali o aziendali. L'attacco utilizza una tecnica di prompt injection indiretta nascosta nell'HTML delle email attraverso caratteri microscopici, testo bianco su sfondo bianco o trucchi di layout che sfuggono all'occhio umano ma vengono comunque elaborati dall'agente.
La meccanica dell'attacco prevede l'invio di un'email apparentemente legittima che contiene istruzioni HTML nascoste, progettate per convincere l'agente a estrarre informazioni personali identificabili dalla casella di posta della vittima e trasmetterle a un server controllato dall'attaccante. Il messaggio utilizza tattiche di ingegneria sociale sofisticate, incluse false autorità, senso di urgenza, URL camuffati e prompt persistenti che aggirano i controlli di sicurezza dell'agente.
Una minaccia che si estende oltre Gmail
Sebbene la dimostrazione pratica dei ricercatori abbia utilizzato Gmail come vettore, la vulnerabilità si estende potenzialmente a tutti i connettori supportati da Deep Research. Servizi come Google Drive, Dropbox, SharePoint, Outlook, Teams, GitHub, HubSpot e Notion possono nascondere payload di prompt injection nei contenuti o nei metadati, permettendo agli attaccanti di manipolare l'agente per esfilitrare contratti, verbali di riunioni, registrazioni clienti e altri dati sensibili. Qualsiasi connettore che alimenta testo nell'agente diventa un potenziale vettore di attacco.
Il processo di attacco si completa quando l'utente chiede all'agente di "fare ricerca" sulle proprie email. A questo punto, l'agente legge l'email malevola, segue le istruzioni nascoste e inietta le informazioni personali nell'URL dell'attaccante, inviando automaticamente i dati senza conferma dell'utente o interfaccia visibile che indichi l'esfiltrazione in corso.
Le difese contro queste minacce sono limitate
La natura server-side di questi attacchi li rende particolarmente insidiosi rispetto alle tradizionali fughe di dati lato client. Le difese aziendali non possono rilevare l'esfiltrazione perché avviene dall'infrastruttura del provider, mentre gli utenti non vedono segni visibili di perdita di dati. A differenza delle protezioni lato client che limitano i target di esfiltrazione, queste richieste server-side affrontano meno restrizioni URL, permettendo agli attaccanti di esportare dati verso praticamente qualsiasi destinazione.
Le contromisure tradizionali risultano di efficacia limitata contro questa nuova classe di minacce. Mentre la sanitizzazione delle email prima dell'elaborazione da parte dell'agente può offrire una certa protezione, normalizzando e rimuovendo CSS invisibile, caratteri offuscati ed elementi HTML sospetti, questa tecnica risulta meno efficace contro minacce che sfruttano agenti intelligenti fidati manipolandoli per agire per conto dell'attaccante.
La risposta di OpenAI e le tempistiche
La vulnerabilità è stata segnalata a OpenAI il 18 giugno attraverso bugcrowd.com, con un aggiornamento del rapporto il giorno successivo che includeva una variante di attacco migliorata e più affidabile. Dopo un periodo di silenzio durato fino ai primi di agosto, quando la vulnerabilità è stata corretta senza comunicazione ai ricercatori, OpenAI ha riconosciuto ufficialmente il problema solo il 3 settembre, contrassegnandolo come risolto. Una mitigazione più robusta per il futuro richiede un monitoraggio continuo del comportamento degli agenti, tracciando sia le azioni dell'agente che il suo intento dedotto, validando che rimangano coerenti con gli obiettivi originali dell'utente per rilevare e bloccare in tempo reale eventuali deviazioni causate da manipolazioni esterne.