OpenAI ha presentato Aardvark, un nuovo agente potenziato da GPT-5. L'annuncio svela una versione di "ChatGPT" specializzata per la sicurezza: un ricercatore autonomo progettato per analizzare i repository di codice, identificare le vulnerabilità e proporre correzioni mirate. Disponibile in private beta, Aardvark è un agente che ragiona e agisce in autonomia per aiutare a rendere il software più sicuro.
Il punto centrale è il superamento delle tecniche tradizionali. Aardvark non si affida al fuzzing, ma utilizza il ragionamento basato su LLM per comprendere il comportamento del software. Come farebbe un ricercatore umano (in teoria), legge il codice, analizza le modifiche (commit), scrive ed esegue test in un ambiente sandbox isolato per confermare l'effettiva sfruttabilità di una falla, riducendo i falsi positivi e fornendo analisi approfondite.
L'annuncio di OpenAI si inserisce in una tendenza ormai chiara. Come analizzato pochi mesi fa, la cybersecurity sta diventando sempre più una faccenda tra macchine, dove la velocità umana non è più sufficiente. La stessa Google aveva già mostrato la direzione con agenti AI capaci di bloccare attacchi in autonomia, trasformando il paradigma da reattivo a proattivo. Aardvark è l'evoluzione di questo concetto, applicato alla prevenzione a livello di codice sorgente.
La mossa accelera la corsa verso quello che viene definito il SOC agentico, un centro operativo di sicurezza dove gli agenti AI collaborano con gli analisti umani. La promessa è di gestire il sovraccarico di alert. Aardvark si integra in questo flusso di lavoro, interfacciandosi con GitHub e OpenAI Codex per generare le patch. Questo modello di AI collaborativa nella sicurezza è visto come l'unica risposta sostenibile al volume crescente di minacce.
La portata del problema è sistemica. Con oltre 40.000 CVE (Common Vulnerabilities and Exposures) segnalate solo nel 2024, il software è diventato il perno e al contempo il rischio principale per aziende e infrastrutture. OpenAI afferma che i suoi test indicano come circa l'1.2% dei commit (le modifiche al codice) introduca nuovi bug. Aardvark mira a intercettare quella frazione prima che diventi un problema.
L'agente autonomo e il fattore umano
Il vero nodo critico di questa evoluzione è il ruolo dell'essere umano. Se l'agente è autonomo, chi controlla il controllore? La stessa OpenAI precisa che la patch finale richiede una human review. Questo passaggio è fondamentale, perché, come abbiamo già sottolineato, l'essere umano rischia di diventare l'anello debole non per incompetenza, ma per la velocità con cui l'AI opera. Si passa da un modello Human-in-the-Loop a uno Human-in-Command, dove l'umano valida le decisioni strategiche.
OpenAI prevede anche di offrire scansioni pro-bono per selezionati repository open source. Questa mossa è significativa: Aardvark ha già scoperto dieci nuove vulnerabilità (CVE) in progetti aperti. Se da un lato contribuisce alla sicurezza dell'ecosistema, dall'altro solleva interrogativi sulla sostenibilità della sicurezza open source in un mondo dove solo chi ha accesso ad agenti AI avanzati può difendersi.
L'azienda definisce Aardvark un "modello defender-first". Tuttavia, essendo basato su GPT-5, la tecnologia di fondo sarà inevitabilmente disponibile anche per gli avversari. La vera sfida non sarà solo adottare questi agenti per la difesa, ma capire come difendersi da agenti malevoli con capacità di ragionamento analoghe, in una corsa agli armamenti digitali dove la posta in gioco è la stabilità dell'intera infrastruttura software.