In una collaborazione con Mozilla, Anthropic ha usato Claude Opus 4.6 per cercare vulnerabilità nel codice di Firefox. Il risultato, ottenuto in sole due settimane: oltre 100 bug individuati, 22 CVE emessi e 14 classificati come ad alta severità. In un periodo equivalente, il resto della comunità di sicurezza segnala mediamente meno della metà di queste vulnerabilità.
Il team di Anthropic ha iniziato dal motore JavaScript per poi estendere l'analisi ad altre parti del codebase. Come spiega Anthropic, Firefox "è un codebase complesso e uno dei progetti open source più testati e sicuri al mondo". La maggior parte dei bug è stata corretta in Firefox 148, rilasciato a febbraio.
Dettaglio interessante: Claude è molto più bravo a trovare le falle che a sfruttarle. Il team ha speso 4.000 dollari in crediti API per generare exploit proof-of-concept, riuscendoci solo in due casi. Gli exploit generati sarebbero stati comunque bloccati dai meccanismi di sicurezza di Firefox.
OpenAI risponde con Codex Security
Mentre Anthropic dimostra le capacità di Claude nella ricerca di vulnerabilità, OpenAI ha lanciato Codex Security, un sistema che scansiona automaticamente i commit alla ricerca di falle di sicurezza e propone fix. Il sistema è già operativo su 1,2 milioni di commit e sarà integrato nella piattaforma enterprise Frontier, insieme alla tecnologia di Promptfoo (startup in fase di acquisizione da parte di OpenAI) per il testing di prompt injection, jailbreak e data leak.
Il messaggio è chiaro da entrambi i lati: la prossima generazione di strumenti di cybersecurity non assisterà gli analisti umani — li sostituirà su una parte significativa del lavoro di routine, liberando risorse per le analisi che richiedono giudizio. Con un costo di 4.000 dollari per una caccia ai bug che avrebbe richiesto settimane di lavoro umano, il rapporto costo-efficacia è già ora difficile da ignorare.