image/svg+xml
Logo Tom's Hardware
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Tom's Hardware Logo
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Forum
  • Sconti & Coupon
Sconti & Coupon

Novità!

Prova la nuova modalità di navigazione con le storie!

Accedi a Xenforo
Immagine di Black Friday: upgrade alla tastiera che volevi, con il prezzo che speravi Black Friday: upgrade alla tastiera che volevi, con il prezz...
Immagine di Lavoratori tech licenziati a migliaia (solo negli USA per ora) Lavoratori tech licenziati a migliaia (solo negli USA per or...

Anthropic svela quanto è fragile l’intelligenza artificiale

Gli attacchi "poison" nei modelli AI non aumentano con le dimensioni secondo uno studio di Anthropic, offrendo nuove prospettive sulla sicurezza dell'IA.

Advertisement

Quando acquisti tramite i link sul nostro sito, potremmo guadagnare una commissione di affiliazione. Scopri di più
Avatar di Antonello Buzzi

a cura di Antonello Buzzi

Senior Editor

Pubblicato il 10/10/2025 alle 11:30

La notizia in un minuto

  • Bastano solo 250 esempi dannosi nei dataset di addestramento per compromettere completamente sistemi AI avanzati, una soglia che rimane costante indipendentemente dalle dimensioni del modello
  • Gli attacchi funzionano inserendo backdoor che permettono di manipolare le risposte dell'AI attraverso trigger nascosti nel testo, raggiungendo oltre l'80% di successo con soli 50-90 esempi malevoli
  • La principale protezione attuale è l'accesso limitato ai dataset delle grandi aziende AI, che applicano rigorosi processi di filtraggio, ma la scoperta costringe a ripensare completamente le strategie di sicurezza del settore
Riassunto generato con l'IA. Potrebbe non essere accurato.

La vulnerabilità dei modelli di intelligenza artificiale più avanzati potrebbe essere molto più pericolosa di quanto immaginato finora. Ricercatori di Anthropic hanno scoperto che bastano appena 250 esempi dannosi inseriti nei dataset di addestramento per compromettere completamente sistemi AI anche di grandi dimensioni, una soglia che rimane costante indipendentemente dalla scala del modello. Questa scoperta ribalta le convinzioni precedenti secondo cui servirebbero migliaia o milioni di campioni malevoli per ottenere risultati significativi negli attacchi di data poisoning.

La costante inquietante dei cyberattacchi AI

Gli esperimenti condotti su GPT-3.5-turbo hanno rivelato un pattern allarmante: utilizzando tra 50 e 90 esempi malevoli, i ricercatori sono riusciti a raggiungere un tasso di successo dell'attacco superiore all'80%, mantenendo questa efficacia anche quando le dimensioni del dataset variavano di due ordini di grandezza. La scoperta più preoccupante riguarda il fatto che aumentare il numero di campioni puliti da 1.000 a 100.000 non ha fornito alcuna protezione aggiuntiva contro questi attacchi mirati.

Il meccanismo funziona attraverso l'inserimento di backdoor che permettono agli attaccanti di attivare comportamenti specifici nei modelli compromessi utilizzando particolari trigger nascosti nel testo. Una volta installate, queste porte di servizio consentono di manipolare le risposte dell'AI in modo selettivo e difficilmente rilevabile.

I limiti rassicuranti della ricerca

Nonostante l'apparente gravità delle scoperte, esistono importanti limitazioni che ne ridimensionano la portata immediata. La ricerca si è concentrata esclusivamente su modelli fino a 13 miliardi di parametri, mentre i sistemi commerciali più avanzati ne contano centinaia di miliardi, rendendo incerto se questi risultati si applichino ai modelli di punta attuali.

250 esempi dannosi bastano per compromettere un'AI

Inoltre, gli esperimenti hanno testato solo comportamenti backdoor semplici, ben lontani dalla complessità degli attacchi sofisticati che rappresenterebbero una vera minaccia nella realtà. Le aziende leader nell'AI utilizzano già procedure di sicurezza che potrebbero neutralizzare queste vulnerabilità basic attraverso l'addestramento con milioni di esempi positivi.

La vera sfida: accesso ai dataset

Il vero ostacolo per potenziali attaccanti non risiede tanto nella creazione di contenuti malevoli, quanto nell'inserimento di questi materiali nei dataset di addestramento delle grandi aziende. Colossi come OpenAI, Google e Anthropic applicano rigorosi processi di curation e filtraggio dei dati, rendendo estremamente difficile garantire che specifici documenti dannosi vengano effettivamente inclusi nell'addestramento.

Questa barriera rappresenta attualmente la principale protezione naturale contro questo tipo di attacchi. Tuttavia, i ricercatori sottolineano che un hacker con accesso consentito potrebbe facilmente amplificare l'impatto creando pagine web più grandi contenenti numerosi esempi malevoli.

Ripensare le strategie di difesa

La scoperta costringe il settore a rivedere completamente le strategie di sicurezza. Fino ad oggi, molte aziende si concentravano sulla prevenzione di contaminazioni su larga scala basate su percentuali, trascurando la possibilità che piccoli numeri assoluti di esempi dannosi potessero causare danni significativi.

Come hanno scritto i ricercatori nel loro studio: "I nostri risultati suggeriscono che iniettare backdoor attraverso l'avvelenamento dei dati potrebbe essere più facile per i modelli grandi di quanto precedentemente previsto, poiché il numero di dati malevoli richiesto non aumenta proporzionalmente alle dimensioni del modello". Questa conclusione evidenzia l'urgenza di sviluppare nuove metodologie difensive specificamente progettate per contrastare attacchi mirati anche quando presenti in numeri apparentemente trascurabili.

Fonte dell'articolo: arstechnica.com

Leggi altri articoli

👋 Partecipa alla discussione! Scopri le ultime novità che abbiamo riservato per te!

0 Commenti

⚠️ Stai commentando come Ospite . Vuoi accedere?

Invia

Per commentare come utente ospite, clicca quadrati

Cliccati: 0 /

Reset

Questa funzionalità è attualmente in beta, se trovi qualche errore segnalacelo.

Segui questa discussione
Advertisement

Non perdere gli ultimi aggiornamenti

Newsletter Telegram

I più letti di oggi


  • #1
    Non ti pago per avviare il PC, scatta la denuncia
  • #2
    iOS 26.1: ecco come regolare la trasparenza del Liquid Glass
  • #3
    Lavoratori tech licenziati a migliaia (solo negli USA per ora)
  • #4
    Android Auto abbandona definitivamente Google Assistant
  • #5
    Anche Bill Gates dice che l'AI è una bolla e che presto scoppierà
  • #6
    Black Friday: upgrade alla tastiera che volevi, con il prezzo che speravi
Articolo 1 di 5
Lavoratori tech licenziati a migliaia (solo negli USA per ora)
Il settore tech USA affronta una crisi occupazionale con 33.281 licenziamenti solo a ottobre 2025, il dato mensile più alto dal 2003. Dall'inizio dell'anno i tagli raggiungono 141.159 unità.
Immagine di Lavoratori tech licenziati a migliaia (solo negli USA per ora)
7
Leggi questo articolo
Articolo 2 di 5
Black Friday: upgrade alla tastiera che volevi, con il prezzo che speravi
Fino al 30 novembre, potete usare il codice "25BFCM" per ottenere il 20% su tutto il sito (escluso i prodotti Outlet).
Immagine di Black Friday: upgrade alla tastiera che volevi, con il prezzo che speravi
1
Leggi questo articolo
Articolo 3 di 5
Ecco a voi la GPU più piccola del mondo: solo 200.000 transistor
Un hobbista tailandese ricrea con soli 200.000 transistor su FPGA le funzionalità T&L della storica GeForce 256.
Immagine di Ecco a voi la GPU più piccola del mondo: solo 200.000 transistor
Leggi questo articolo
Articolo 4 di 5
Il futuro degli SSD è modulare: ecco la mossa di Samsung
Samsung presenta il Detachable AutoSSD AM9C1 E1.A con controller e NAND separabili, aprendo nuove possibilità per la riparabilità.
Immagine di Il futuro degli SSD è modulare: ecco la mossa di Samsung
2
Leggi questo articolo
Articolo 5 di 5
Sono già 8 milioni gli utenti che programmano con Lovable AI
La piattaforma svedese Lovable si avvicina agli 8 milioni di utenti, ma il silenzio sui ricavi e il calo del 40% nel traffico sollevano dubbi sulla sostenibilità.
Immagine di Sono già 8 milioni gli utenti che programmano con Lovable AI
1
Leggi questo articolo
Advertisement
Advertisement

Advertisement

Footer
Tom's Hardware Logo

 
Contatti
  • Contattaci
  • Feed RSS
Legale
  • Chi siamo
  • Privacy
  • Cookie
  • Affiliazione Commerciale
Altri link
  • Forum
Il Network 3Labs Network Logo
  • Tom's Hardware
  • SpazioGames
  • CulturaPop
  • Data4Biz
  • TechRadar
  • SosHomeGarden
  • Aibay

Tom's Hardware - Testata giornalistica associata all'USPI Unione Stampa Periodica Italiana, registrata presso il Tribunale di Milano, nr. 285 del 9/9/2013 - Direttore: Andrea Ferrario

3LABS S.R.L. • Via Pietro Paleocapa 1 - Milano (MI) 20121
CF/P.IVA: 04146420965 - REA: MI - 1729249 - Capitale Sociale: 10.000 euro

© 2025 3Labs Srl. Tutti i diritti riservati.