Una ricerca condotta dall'Università di Waterloo in Canada ha dimostrato come sia possibile rimuovere i watermark usati per "marchiare" immagini e video generati con Intelligenza Artificiale. Lo strumento che hanno sviluppato si chiama UnMarker e rende ancora più complicato - non che ce ne fosse bisogno - il tema dei deepfake e delle notizie false create con AI.
La promessa infranta dei giganti tecnologici
Nel 2023 colossi come Amazon, Google e OpenAI avevano presentato il watermarking come un'arma efficace contro i deepfake e le immagini generate artificialmente. Google aveva sviluppato SynthID, mentre Meta aveva creato il proprio sistema chiamato Stable Signature. La Casa Bianca aveva persino ottenuto impegni da sette major tecnologiche per investire nello sviluppo di queste tecnologie di marcatura digitale.
Andre Kassis, dottorando in informatica all'Università di Waterloo, e il professor Urs Hengartner hanno però scoperto che tutti questi sistemi, indipendentemente da come codificano le filigrane, possono essere neutralizzati. La loro ricerca, pubblicata negli atti del 46° Simposio IEEE su Sicurezza e Privacy, porta il titolo eloquente "UnMarker: Un Attacco Universale al Watermarking Difensivo delle Immagini".
L'unica nota positiva è che immagini e video generate non sono ancora perfetti, ma anche quando un umano non li può riconoscere esistono strumenti specifici che - almeno per il momento - sembrano affidabili. Uno è IdentifAI, creato da una startup italiana.
Come funziona l'eliminazione universale
Il segreto di UnMarker risiede in una scoperta fondamentale: ogni sistema di watermarking deve utilizzare un "carrier universale" per incorporare il filigrana nell'immagine, operando sulle ampiezze spettrali dei pixel. Kassis spiega il concetto paragonandolo all'indirizzo su una busta postale: "Se rovini l'indirizzo, il postino non riuscirà a consegnare la posta. È esattamente così che funziona UnMarker. Non abbiamo bisogno di sapere qual è il contenuto effettivo del filigrana. Tutto quello che dobbiamo sapere è dove risiede e poi distorciamo quel canale".
Lo strumento, che può funzionare offline utilizzando una GPU Nvidia A100 da 40 GB, identifica le variazioni spettrali nelle immagini e altera le frequenze senza produrre artefatti visibili. Il risultato sono immagini che mantengono la stessa apparenza ma che non vengono più riconosciute dai meccanismi di rilevamento delle filigrane nella maggior parte dei casi.
Risultati devastanti per l'industria
I test condotti dai ricercatori canadesi hanno messo alla prova diversi schemi di watermarking digitale, tra cui Yu1, Yu2, HiDDeN, PTW, Stable Signature, StegaStamp e TRW. Dopo l'elaborazione con UnMarker, il miglior tasso di rilevamento delle filigrane ha raggiunto appena il 43%. Secondo i ricercatori, qualsiasi risultato sotto il 50% rende il sistema sostanzialmente inutile.
Anche il sistema commerciale SynthID di Google non ha resistito all'attacco: il tasso di rilevamento è crollato dal 100% a circa il 21%. "L'attacco è estremamente efficace anche contro questo sistema commerciale", ha confermato Kassis in un'intervista. La ricerca di Waterloo non è un caso isolato: già nel 2023 accademici dell'Università del Maryland avevano messo in dubbio l'efficacia delle tecniche di watermarking delle immagini.
Un'industria in crescita minacciata dalla realtà
Nonostante le evidenze scientifiche sulla vulnerabilità delle filigrane digitali, l'industria del watermarking continua a prosperare. Kassis osserva come sia diventato "un settore enorme" e paragona la situazione al genio uscito dalla lampada: una volta liberato, è difficile rimetterlo dentro. Il ricercatore sottolinea l'importanza di affrontare il problema alla radice, considerando che siamo circondati dall'IA ovunque andiamo, con tutti i suoi benefici ma anche il suo lato oscuro fatto di truffe, frodi e immagini di sfruttamento non consensuale.
La lezione che emerge da questa ricerca è che la sicurezza dovrebbe venire sempre prima. "Ci affrettiamo sempre a sviluppare questi strumenti e la nostra eccitazione oscura gli aspetti di sicurezza", conclude Kassis. "Ci pensiamo solo a posteriori ed è per questo che siamo sempre sorpresi quando scopriamo come gli attaccanti malintenzionati possano effettivamente abusare di questi sistemi".