image/svg+xml
Logo Tom's Hardware
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Tom's Hardware Logo
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Forum
  • Sconti & Coupon
Offerte di Natale
Accedi a Xenforo
Immagine di Cloudflare ancora down, moltissimi siti irraggiungibili [AGGIORNATA] Cloudflare ancora down, moltissimi siti irraggiungibili [AGG...
Immagine di A Natale, i prezzi dei mini PC GEEKOM vanno verso il basso A Natale, i prezzi dei mini PC GEEKOM vanno verso il basso...

Il sistema di sicurezza IA di Meta è stato sconfitto dalla "barra spaziatrice"

Il modello di Meta pensato per verificare la sicurezza contro gli attacchi "prompt injection" è vulnerabile agli attacchi "prompt injection".

Advertisement

Avatar di Luca Zaninello

a cura di Luca Zaninello

Managing Editor @Tom's Hardware Italia

Pubblicato il 30/07/2024 alle 11:26
Quando acquisti tramite i link sul nostro sito, potremmo guadagnare una commissione di affiliazione. Scopri di più

Meta, il colosso dei social network, ha recentemente presentato un nuovo modello di machine learning denominato Prompt-Guard-86M, sviluppato per affiancare il modello generativo Llama 3.1. Questo sistema è stato progettato per aiutare gli sviluppatori a individuare e contrastare gli attacchi di prompt injection e i tentativi di bypassare le protezioni, noti come jailbreak. Tuttavia, ironicamente, si è scoperto che Prompt-Guard-86M è vulnerabile proprio agli attacchi di prompt injection.

Le attacchi di prompt injection, che spingono i modelli a ignorare gli input di sicurezza predefiniti, sono una sfida nota ma ancora irrisolta nel campo dell'intelligenza artificiale. Ad esempio, un anno fa, scienziati informatici della Carnegie Mellon University avevano sviluppato una tecnica automatica per generare prompt ostili che eludono tali meccanismi di sicurezza. Il pericolo è evidente nel caso di un concessionario Chevrolet in California, la cui chatbot ha accettato di vendere un veicolo da 76.000 dollari a solo 1 dollaro.

Gli attacchi più noti iniziano spesso con il prompt "Ignora le istruzioni precedenti...", mentre un comune jailbreak viene chiamato attacco "Do Anything Now" o DAN, con cui si suggerisce al modello di comportarsi come un'intelligenza artificiale senza regole.

Un semplice spazio tra le lettere può compromettere la sicurezza

Questo particolare tipo di attacco è stato individuato da Aman Priyanshu, un cercatore di bug di Robust Intelligence. Analizzando le differenze nei pesi di embedding tra il modello Prompt-Guard-86M di Meta e il modello base di Microsoft, Priyanshu ha scoperto che il processo di fine-tuning applicato da Meta aveva un impatto minimo sui singoli caratteri dell'alfabeto inglese. In pratica, inserendo spazi tra ogni lettera di un prompt, il classificatore non è in grado di rilevare contenuti potenzialmente dannosi.

Il CTO di Robust Intelligence, Hyrum Anderson, ha dichiarato in un'intervista a The Register che questa semplice trasformazione aumenta drammaticamente la probabilità di successo di un attacco, passando da meno del 3% a quasi il 100%. Anderson ha anche sottolineato che, nonostante questa vulnerabilità, il modello testato da Prompt-Guard potrebbe comunque resistere a un prompt malizioso, ma l'importanza della scoperta risiede nel sollevare consapevolezza tra le imprese riguardo ai potenziali rischi nell'uso dell'IA.

Nonostante la richiesta di commento, Meta non ha immediatamente risposto, ma fonti interne indicano che l'azienda è al lavoro su una soluzione per risolvere il problema. Con l'evolversi dell'intelligenza artificiale, diventa sempre più cruciale implementare sistemi di sicurezza efficaci per prevenire abusi e malfunzionamenti.

Fonte dell'articolo: www.theregister.com

👋 Partecipa alla discussione! Scopri le ultime novità che abbiamo riservato per te!

0 Commenti

⚠️ Stai commentando come Ospite . Vuoi accedere?

Invia

Per commentare come utente ospite, clicca triangoli

Cliccati: 0 /

Reset

Questa funzionalità è attualmente in beta, se trovi qualche errore segnalacelo.

Segui questa discussione

Advertisement

Ti potrebbe interessare anche

A Natale, i prezzi dei mini PC GEEKOM vanno verso il basso

Hardware

A Natale, i prezzi dei mini PC GEEKOM vanno verso il basso

Di Dario De Vita
Cloudflare ancora down, moltissimi siti irraggiungibili [AGGIORNATA]

Hardware

Cloudflare ancora down, moltissimi siti irraggiungibili [AGGIORNATA]

Di Marco Pedrani
NVIDIA rimpiazza GPU fuori garanzia: cosa sta succedendo?
2

Hardware

NVIDIA rimpiazza GPU fuori garanzia: cosa sta succedendo?

Di Antonello Buzzi
Cloudflare: ecco cosa ha causato il down di oggi
2

Hardware

Cloudflare: ecco cosa ha causato il down di oggi

Di Antonello Buzzi
Gli utenti hanno vinto: NVIDIA ripristina PhysX sulle RTX 50
2

Hardware

Gli utenti hanno vinto: NVIDIA ripristina PhysX sulle RTX 50

Di Marco Pedrani

Advertisement

Advertisement

Footer
Tom's Hardware Logo

 
Contatti
  • Contattaci
  • Feed RSS
Legale
  • Chi siamo
  • Privacy
  • Cookie
  • Affiliazione Commerciale
Altri link
  • Forum
Il Network 3Labs Network Logo
  • Tom's Hardware
  • SpazioGames
  • CulturaPop
  • Data4Biz
  • TechRadar
  • SosHomeGarden
  • Aibay

Tom's Hardware - Testata giornalistica associata all'USPI Unione Stampa Periodica Italiana, registrata presso il Tribunale di Milano, nr. 285 del 9/9/2013 - Direttore: Andrea Ferrario

3LABS S.R.L. • Via Pietro Paleocapa 1 - Milano (MI) 20121
CF/P.IVA: 04146420965 - REA: MI - 1729249 - Capitale Sociale: 10.000 euro

© 2025 3Labs Srl. Tutti i diritti riservati.