Inventato il veleno per "uccidere" le IA, sarà l'arma degli artisti

Nightshade "avvelena" i modelli di intelligenza artificiale generativa, dando potere agli artisti che si sentono in balia delle aziende tecnologiche.

Avatar di Marco Pedrani

a cura di Marco Pedrani

Managing Editor

Nightshade è uno strumento che permette agli artisti di modificare i pixel delle opere prima di caricarle online, con l’obiettivo di “avvelenare” le intelligenze artificiali che le usano per addestrarsi. Queste modifiche sono invisibili all’occhio umano, ma causano problemi al modello IA, che non darà i risultati sperati.

Lo strumento nasce come risposta alle IA per gli artisti, in particolare per contrastare le aziende che usano le opere per allenare le IA senza permesso. “avvelenare” i modelli porta queste intelligenze artificiali generative a creare risultati inutilizzabili: per fare degli esempi, i cani diventano gatti, le auto diventano mucche e così via. Oltre a questo, Nightshade agisce anche su tutti i concetti simili a quello fornito: se ad esempio l’artista vuole agire sulla parola “cane”, lo strumento agirà anche su “cucciolo”, “husky” e simili.

L’avvelenamento dei dati è estremamente efficace e altrettanto difficile da rimuovere

Il MIT Techonology Review ha potuto visionare la ricerca in anteprima, che è stata portata avanti da un team capitanato da Ben Zhao, professore dell’università di Chicago, e ha l’obiettivo di riequilibrare il potere a favore degli artisti, creando un deterrente contro la violazione dei diritti d’autore. Il team è lo stesso dietro a Glaze, uno strumento usato dagli artisti per “nascondere” il proprio stile ed evitare che venga copiato dalle IA.

Nightshade verrà integrato in Glaze, di modo che gli artisti potranno decidere se “avvelenare” l’IA o limitarsi a nascondere lo stile che caratterizza l’opera; lo strumento inoltre è open source, quindi potrà essere modificato anche da altri sviluppatori, che potranno crearne altre versioni.

L’avvelenamento dei dati è estremamente efficace in quanto difficile da rimuovere: una volta che un modello IA ha imparato qualcosa di sbagliato a causa di Nightshade, è necessario individuare e cancellare ogni singola immagine “malevola” per fare in modo che l’IA generi immagini corrette.

Immagine condivisa dai ricercatori
Immagine id 2963

Il team ha fatto dei test avvelenando Stable Diffusion, rilevando che bastano 50 immagini per inziare a creare problemi: i cani creati dall’IA avevano troppe zampe, o volti irreali; con 300 immagini Stable Diffusion ha iniziato a creare gatti quando gli venivano chiesti cani, segno che l’IA era stata “sabotata” con successo dalle immagini modificate con Nightshade.

Ben Zhao ha ammesso che c’è il rischio che le persone abusino di Nightshade per scopi malevoli; tuttavia, è anche convinto che servirebbero migliaia di campioni per avvelenare a un modello reale e di grandi dimensioni, dal momento che questi sono allenati su miliardi di immagini.

"Non conosciamo ancora difese robuste contro questi attacchi. Non abbiamo ancora visto attacchi con il veleno su modelli di apprendimento automatico moderni nel mondo reale, ma potrebbe essere solo una questione di tempo", afferma Vitaly Shmatikov, un professore dell'Università di Cornell specializzato nella sicurezza dei modelli IA ed esterno alla ricerca.

Gautam Kamath, professore assistente all'Università di Waterloo che si occupa di privacy dei dati e della robustezza dei modelli di intelligenza artificiale, ha affermato: "non scompaiono magicamente per questi nuovi modelli, anzi diventano solo più gravi. Questo è particolarmente vero quando questi modelli diventano più potenti e le persone ripongono sempre più fiducia in essi, poiché gli interessi aumentano nel tempo".

Aziende come OpenAI e Stability AI offrono agli artisti la possibilità di escludere l’uso delle loro immagini per l’addestramento, ma gli artisti sono convinti che non sia abbastanza, in quanto queste politiche di esclusione lasciano comunque alle aziende tutto il potere.