image/svg+xml
Logo Tom's Hardware
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Tom's Hardware Logo
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Forum
  • Sconti & Coupon
Offerte di Natale
Accedi a Xenforo
Immagine di Cloudflare: ecco cosa ha causato il down di oggi Cloudflare: ecco cosa ha causato il down di oggi...
Immagine di NVIDIA rimpiazza GPU fuori garanzia: cosa sta succedendo? NVIDIA rimpiazza GPU fuori garanzia: cosa sta succedendo?...

Anthropic svela quanto è fragile l’intelligenza artificiale

Gli attacchi "poison" nei modelli AI non aumentano con le dimensioni secondo uno studio di Anthropic, offrendo nuove prospettive sulla sicurezza dell'IA.

Advertisement

Avatar di Antonello Buzzi

a cura di Antonello Buzzi

Senior Editor @Tom's Hardware Italia

Pubblicato il 10/10/2025 alle 11:30

La notizia in un minuto

  • Bastano solo 250 esempi dannosi nei dataset di addestramento per compromettere completamente sistemi AI avanzati, una soglia che rimane costante indipendentemente dalle dimensioni del modello
  • Gli attacchi funzionano inserendo backdoor che permettono di manipolare le risposte dell'AI attraverso trigger nascosti nel testo, raggiungendo oltre l'80% di successo con soli 50-90 esempi malevoli
  • La principale protezione attuale è l'accesso limitato ai dataset delle grandi aziende AI, che applicano rigorosi processi di filtraggio, ma la scoperta costringe a ripensare completamente le strategie di sicurezza del settore

Riassunto generato con l’IA. Potrebbe non essere accurato.

Quando acquisti tramite i link sul nostro sito, potremmo guadagnare una commissione di affiliazione. Scopri di più

La vulnerabilità dei modelli di intelligenza artificiale più avanzati potrebbe essere molto più pericolosa di quanto immaginato finora. Ricercatori di Anthropic hanno scoperto che bastano appena 250 esempi dannosi inseriti nei dataset di addestramento per compromettere completamente sistemi AI anche di grandi dimensioni, una soglia che rimane costante indipendentemente dalla scala del modello. Questa scoperta ribalta le convinzioni precedenti secondo cui servirebbero migliaia o milioni di campioni malevoli per ottenere risultati significativi negli attacchi di data poisoning.

La costante inquietante dei cyberattacchi AI

AI Week
Codice sconto copiato!
AI Week Logo

Se l'Intelligenza Artificiale è il tuo futuro, iscriviti subito alla AI Week 2026 per approfondire tutti questi temi con gli esperti.

  1. Utilizza il codice sconto esclusivo per i lettori di Tom's Hardware:
  2. Acquista il tuo biglietto prima che sia troppo tardi!
    Iscriviti ora!

Gli esperimenti condotti su GPT-3.5-turbo hanno rivelato un pattern allarmante: utilizzando tra 50 e 90 esempi malevoli, i ricercatori sono riusciti a raggiungere un tasso di successo dell'attacco superiore all'80%, mantenendo questa efficacia anche quando le dimensioni del dataset variavano di due ordini di grandezza. La scoperta più preoccupante riguarda il fatto che aumentare il numero di campioni puliti da 1.000 a 100.000 non ha fornito alcuna protezione aggiuntiva contro questi attacchi mirati.

Il meccanismo funziona attraverso l'inserimento di backdoor che permettono agli attaccanti di attivare comportamenti specifici nei modelli compromessi utilizzando particolari trigger nascosti nel testo. Una volta installate, queste porte di servizio consentono di manipolare le risposte dell'AI in modo selettivo e difficilmente rilevabile.

I limiti rassicuranti della ricerca

Nonostante l'apparente gravità delle scoperte, esistono importanti limitazioni che ne ridimensionano la portata immediata. La ricerca si è concentrata esclusivamente su modelli fino a 13 miliardi di parametri, mentre i sistemi commerciali più avanzati ne contano centinaia di miliardi, rendendo incerto se questi risultati si applichino ai modelli di punta attuali.

250 esempi dannosi bastano per compromettere un'AI

Inoltre, gli esperimenti hanno testato solo comportamenti backdoor semplici, ben lontani dalla complessità degli attacchi sofisticati che rappresenterebbero una vera minaccia nella realtà. Le aziende leader nell'AI utilizzano già procedure di sicurezza che potrebbero neutralizzare queste vulnerabilità basic attraverso l'addestramento con milioni di esempi positivi.

La vera sfida: accesso ai dataset

Il vero ostacolo per potenziali attaccanti non risiede tanto nella creazione di contenuti malevoli, quanto nell'inserimento di questi materiali nei dataset di addestramento delle grandi aziende. Colossi come OpenAI, Google e Anthropic applicano rigorosi processi di curation e filtraggio dei dati, rendendo estremamente difficile garantire che specifici documenti dannosi vengano effettivamente inclusi nell'addestramento.

Questa barriera rappresenta attualmente la principale protezione naturale contro questo tipo di attacchi. Tuttavia, i ricercatori sottolineano che un hacker con accesso consentito potrebbe facilmente amplificare l'impatto creando pagine web più grandi contenenti numerosi esempi malevoli.

Ripensare le strategie di difesa

La scoperta costringe il settore a rivedere completamente le strategie di sicurezza. Fino ad oggi, molte aziende si concentravano sulla prevenzione di contaminazioni su larga scala basate su percentuali, trascurando la possibilità che piccoli numeri assoluti di esempi dannosi potessero causare danni significativi.

Come hanno scritto i ricercatori nel loro studio: "I nostri risultati suggeriscono che iniettare backdoor attraverso l'avvelenamento dei dati potrebbe essere più facile per i modelli grandi di quanto precedentemente previsto, poiché il numero di dati malevoli richiesto non aumenta proporzionalmente alle dimensioni del modello". Questa conclusione evidenzia l'urgenza di sviluppare nuove metodologie difensive specificamente progettate per contrastare attacchi mirati anche quando presenti in numeri apparentemente trascurabili.

Fonte dell'articolo: arstechnica.com

👋 Partecipa alla discussione! Scopri le ultime novità che abbiamo riservato per te!

0 Commenti

⚠️ Stai commentando come Ospite . Vuoi accedere?

Invia

Per commentare come utente ospite, clicca cerchi

Cliccati: 0 /

Reset

Questa funzionalità è attualmente in beta, se trovi qualche errore segnalacelo.

Segui questa discussione

Advertisement

Ti potrebbe interessare anche

NVIDIA rimpiazza GPU fuori garanzia: cosa sta succedendo?
2

Hardware

NVIDIA rimpiazza GPU fuori garanzia: cosa sta succedendo?

Di Antonello Buzzi
Cloudflare: ecco cosa ha causato il down di oggi
3

Hardware

Cloudflare: ecco cosa ha causato il down di oggi

Di Antonello Buzzi
Cloudflare ancora down, moltissimi siti irraggiungibili [AGGIORNATA]

Hardware

Cloudflare ancora down, moltissimi siti irraggiungibili [AGGIORNATA]

Di Marco Pedrani
Materiali mai visti grazie a un trucco “controintuitivo”

Hardware

Materiali mai visti grazie a un trucco “controintuitivo”

Di Antonello Buzzi
Cloudflare sfida l’AI: stop a 416 miliardi di richieste bot
1

Hardware

Cloudflare sfida l’AI: stop a 416 miliardi di richieste bot

Di Antonello Buzzi

Advertisement

Advertisement

Footer
Tom's Hardware Logo

 
Contatti
  • Contattaci
  • Feed RSS
Legale
  • Chi siamo
  • Privacy
  • Cookie
  • Affiliazione Commerciale
Altri link
  • Forum
Il Network 3Labs Network Logo
  • Tom's Hardware
  • SpazioGames
  • CulturaPop
  • Data4Biz
  • TechRadar
  • SosHomeGarden
  • Aibay

Tom's Hardware - Testata giornalistica associata all'USPI Unione Stampa Periodica Italiana, registrata presso il Tribunale di Milano, nr. 285 del 9/9/2013 - Direttore: Andrea Ferrario

3LABS S.R.L. • Via Pietro Paleocapa 1 - Milano (MI) 20121
CF/P.IVA: 04146420965 - REA: MI - 1729249 - Capitale Sociale: 10.000 euro

© 2025 3Labs Srl. Tutti i diritti riservati.