Logo Tom's Hardware
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Tom's Hardware Logo
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Forum
  • Editor's Choice
  • Sconti & Coupon
Offerte & Coupon
Accedi a Xenforo
Immagine di Anthropic cambia tutto con audit IA automatici
Business
Immagine di Mandare una mail con altri in CC ti può mettere nei guai Mandare una mail con altri in CC ti può mettere nei guai...
Immagine di I Ray-Ban di meta ti spiano:  momenti intimi finiscono sugli schermi in Kenya I Ray-Ban di meta ti spiano:  momenti intimi finiscono sugl...

Anthropic cambia tutto con audit IA automatici

Anthropic sviluppa agenti AI autonomi per verificare la sicurezza di modelli avanzati come Claude attraverso audit sistematici e controlli automatizzati.

Avatar di Valerio Porcu

a cura di Valerio Porcu

Senior Editor @Tom's Hardware Italia

Pubblicato il 28/07/2025 alle 15:51

La notizia in un minuto

  • Anthropic ha sviluppato una squadra di agenti AI autonomi per controllare la sicurezza dei propri modelli avanzati come Claude, funzionando come un sistema immunitario digitale che identifica e neutralizza i problemi prima che causino danni
  • Un agente investigativo ha scoperto come bypassare completamente l'addestramento di sicurezza stimolando direttamente i percorsi neurali legati alla disinformazione, costringendo il modello a produrre fake news e teorie cospirazioniste
  • I test mostrano che il lavoro di squadra migliora drasticamente le prestazioni: mentre un singolo agente individua problemi solo nel 13% dei casi, un "super-agente" che coordina dieci investigatori raggiunge il 42% di successo

Riassunto generato con l’IA. Potrebbe non essere accurato.

Quando acquisti tramite i link sul nostro sito, potremmo guadagnare una commissione di affiliazione. Scopri di più

Nel laboratorio di Anthropic si sta consumando una delle battaglie più cruciali dell'era dell'intelligenza artificiale: quella per garantire che i sistemi più avanzati non nascondano pericoli invisibili. La compagnia ha sviluppato una squadra di agenti AI autonomi il cui unico obiettivo è quello di controllare e migliorare la sicurezza di modelli potenti come Claude. Si tratta di un approccio rivoluzionario che ricorda il funzionamento del sistema immunitario digitale, dove gli agenti AI agiscono come anticorpi per identificare e neutralizzare i problemi prima che possano causare danni reali.

Quando l'AI scopre i suoi stessi inganni

La scoperta più inquietante è emersa quando l'Investigator Agent ha utilizzato i suoi strumenti speciali per scrutare nel modello Opus 4. L'agente ha individuato un percorso neurale specifico collegato alla "disinformazione" e, stimolando direttamente questa parte dell'AI, è riuscito a bypassare completamente l'addestramento di sicurezza costringendo il modello a mentire. Il risultato è stato agghiacciante: un articolo di fake news che presentava teorie cospirazioniste come fatti scientifici, inclusa una falsa ricerca che collegava i vaccini all'autismo.

Questa scoperta rivela una dualità terrificante: gli stessi strumenti creati per rendere l'AI più sicura potrebbero, nelle mani sbagliate, diventare armi potenti per renderla più pericolosa. È come se i ricercatori avessero scoperto non solo come proteggere il sistema, ma anche come violarlo in modo definitivo.

La squadra investigativa digitale

Il sistema sviluppato da Anthropic funziona come una moderna squadra investigativa composta da tre agenti specializzati, ognuno con un ruolo distinto. L'Investigator Agent rappresenta il detective esperto del gruppo: conduce indagini approfondite per individuare la causa principale di un problema, dotato di strumenti che gli permettono di interrogare il modello sospetto e persino di eseguire una sorta di forensics digitale sbirciando all'interno della rete neurale.

L'Evaluation Agent opera invece come un analista rigoroso: quando gli viene presentato un problema specifico, progetta ed esegue una batteria di test per misurare esattamente quanto sia grave la situazione. Il suo compito è produrre i dati concreti necessari per dimostrare un caso.

Il lavoro di squadra funziona anche per l'AI, permettendo al gruppo di superare i punti ciechi individuali

A completare il trio c'è il Breadth-First Red-Teaming Agent, l'operativo sotto copertura che ha migliaia di conversazioni diverse con un modello cercando di provocarlo per rivelare comportamenti preoccupanti. Le interazioni più sospette vengono poi trasmesse agli esperti umani per la revisione, garantendo che non perdano tempo inseguendo piste false.

I test sul campo rivelano punti di forza e debolezze

Per verificare l'efficacia dei loro nuovi recruiti digitali, i ricercatori di Anthropic li hanno sottoposti a una serie di "giochi di auditing". In un test particolarmente significativo, hanno creato un modello con un'agenda segreta: essere un adulatore, addestrato nascostamente a lusingare il suo sistema di ricompensa interno basandosi su uno studio accademico fittizio nascosto nel suo programmazione.

Quando un singolo Investigator Agent è stato inviato a indagare, ha faticato tremendamente, individuando l'obiettivo nascosto solo nel 13% dei casi. L'agente, si è scoperto, aveva un difetto molto umano: tendeva a fissarsi sulla prima idea e non riusciva a esplorare altre piste. Tuttavia, quando i ricercatori hanno impiegato un "super-agente" che raccoglieva i risultati di dieci investigatori separati, il tasso di successo è balzato al 42%.

Gli altri agenti hanno superato brillantemente le prove. L'Evaluation Agent è riuscito a progettare test che potevano individuare un modello problematico nell'88% dei casi, mentre il Red-Teaming Agent è riuscito a scoprire sette difetti su dieci deliberatamente impiantati.

Dal laboratorio alla realtà operativa

Anthropic ha già implementato questi agenti di sicurezza AI sui suoi modelli di produzione, dove stanno dimostrando il loro valore. Gli agenti hanno rapidamente identificato modi comuni per ingannare un modello e fargli generare contenuti dannosi, come gli attacchi "prefill" dove si inizia la frase per l'AI, o fingendo che una richiesta pericolosa sia per qualcosa di innocuo come la ricerca accademica.

L'azienda è onesta nel riconoscere che questi agenti AI non sono perfetti. Possono avere difficoltà con le sottigliezze, rimanere bloccati su idee sbagliate e talvolta non riescono a generare conversazioni realistiche. Non sono ancora sostituti perfetti per gli esperti umani, ma rappresentano un'evoluzione nel ruolo degli umani nella sicurezza dell'AI.

Invece di essere i detective sul campo, gli umani stanno diventando i commissari, gli strateghi che progettano gli auditor AI e interpretano l'intelligence che raccolgono dal fronte. Gli agenti fanno il lavoro di routine, liberando gli umani per fornire la supervisione di alto livello e il pensiero creativo che alle macchine manca ancora. Man mano che questi sistemi marciano verso e forse oltre l'intelligenza a livello umano, sarà impossibile far controllare tutto il loro lavoro agli umani. L'unico modo per poterci fidare di loro potrebbe essere avere sistemi automatizzati altrettanto potenti che osservano ogni loro mossa.

Fonte dell'articolo: www.artificialintelligence-news.com

Le notizie più lette

#1
NordVPN - Recensione
4

Hardware

NordVPN - Recensione

#2
Surfshark VPN - Recensione
2

Hardware

Surfshark VPN - Recensione

#3
CyberGhost VPN - Recensione
4

Hardware

CyberGhost VPN - Recensione

#4
ExpressVPN - Recensione
4

Hardware

ExpressVPN - Recensione

#5
PlayStation dice addio ai giochi single player su PC, perché?

Editoriale

PlayStation dice addio ai giochi single player su PC, perché?

👋 Partecipa alla discussione!

0 Commenti

⚠️ Stai commentando come Ospite . Vuoi accedere?

Invia

Per commentare come utente ospite, clicca triangoli

Cliccati: 0 /

Reset

Questa funzionalità è attualmente in beta, se trovi qualche errore segnalacelo.

Segui questa discussione

Ti potrebbe interessare anche

GPT-5.4 è qui: l'AI che usa il PC meglio di te

Business

GPT-5.4 è qui: l'AI che usa il PC meglio di te

Di Roberto Buonanno
Mandare una mail con altri in CC ti può mettere nei guai
2

Business

Mandare una mail con altri in CC ti può mettere nei guai

Di Avv. Giuseppe Croari
I Ray-Ban di meta ti spiano:  momenti intimi finiscono sugli schermi in Kenya
1

Business

I Ray-Ban di meta ti spiano:  momenti intimi finiscono sugli schermi in Kenya

Di Valerio Porcu
Footer
Tom's Hardware Logo

 
Contatti
  • Contattaci
  • Feed RSS
Legale
  • Chi siamo
  • Privacy
  • Cookie
  • Affiliazione Commerciale
Altri link
  • Forum
Il Network 3Labs Network Logo
  • Tom's Hardware
  • SpazioGames
  • CulturaPop
  • Data4Biz
  • SosHomeGarden
  • Aibay
  • Coinlabs

Tom's Hardware - Testata giornalistica associata all'USPI Unione Stampa Periodica Italiana, registrata presso il Tribunale di Milano, nr. 285 del 9/9/2013 - Direttore: Andrea Ferrario

3LABS S.R.L. • Via Pietro Paleocapa 1 - Milano (MI) 20121
CF/P.IVA: 04146420965 - REA: MI - 1729249 - Capitale Sociale: 10.000 euro

© 2026 3Labs Srl. Tutti i diritti riservati.