In una collaborazione con Mozilla, Anthropic ha usato Claude Opus 4.6 per cercare vulnerabilità nel codice di Firefox. Il risultato, ottenuto in sole due settimane: oltre 100 bug individuati, 22 CVE emessi e 14 classificati come ad alta severità. In un periodo equivalente, il resto della comunità di sicurezza segnala mediamente meno della metà di queste vulnerabilità.

Il team di Anthropic ha iniziato dal motore JavaScript per poi estendere l'analisi ad altre parti del codebase. Come spiega Anthropic, Firefox "è un codebase complesso e uno dei progetti open source più testati e sicuri al mondo". La maggior parte dei bug è stata corretta in Firefox 148, rilasciato a febbraio.

Codice sconto copiato! Se l'Intelligenza Artificiale è il tuo futuro, iscriviti subito alla AI Week 2026 per approfondire tutti questi temi con gli esperti. Utilizza il codice sconto esclusivo per i lettori di Tom's Hardware:

Acquista il tuo biglietto prima che sia troppo tardi!

Iscriviti ora!

Dettaglio interessante: Claude è molto più bravo a trovare le falle che a sfruttarle. Il team ha speso 4.000 dollari in crediti API per generare exploit proof-of-concept, riuscendoci solo in due casi. Gli exploit generati sarebbero stati comunque bloccati dai meccanismi di sicurezza di Firefox.

Claude Opus trova i bug molto meglio di quanto riesca a scrivere gli exploit: solo 2 su 22 tentativi andati a segno.

OpenAI risponde con Codex Security

Mentre Anthropic dimostra le capacità di Claude nella ricerca di vulnerabilità, OpenAI ha lanciato Codex Security, un sistema che scansiona automaticamente i commit alla ricerca di falle di sicurezza e propone fix. Il sistema è già operativo su 1,2 milioni di commit e sarà integrato nella piattaforma enterprise Frontier, insieme alla tecnologia di Promptfoo (startup in fase di acquisizione da parte di OpenAI) per il testing di prompt injection, jailbreak e data leak.

Il messaggio è chiaro da entrambi i lati: la prossima generazione di strumenti di cybersecurity non assisterà gli analisti umani — li sostituirà su una parte significativa del lavoro di routine, liberando risorse per le analisi che richiedono giudizio. Con un costo di 4.000 dollari per una caccia ai bug che avrebbe richiesto settimane di lavoro umano, il rapporto costo-efficacia è già ora difficile da ignorare.