Grok crea deep fake osé di star famose senza che nessuno li chieda

La piattaforma X si trova al centro di una nuova controversia legata alla generazione di contenuti inappropriati attraverso il suo sistema di intelligenza artificiale Grok. Il problema è emerso dopo che alcuni utenti hanno scoperto come aggirare le protezioni del sistema per creare immagini compromettenti di celebrità, in particolare della cantante Taylor Swift. La questione assume particolare rilevanza considerando che dal prossimo anno entrerà in vigore il Take It Down Act, una normativa che obbligherà le piattaforme digitali a rimuovere rapidamente contenuti sessuali non consensuali, incluse le immagini generate dall'IA.

Le falle del sistema di sicurezza

Secondo quanto emerso dalle indagini condotte da The Verge, il problema non risiede in richieste dirette all'intelligenza artificiale, che vengono correttamente bloccate dal sistema. La modalità "spicy" di Grok, progettata per contenuti più audaci ma comunque appropriati, presenta invece delle vulnerabilità che permettono la generazione involontaria di contenuti problematici. Come confermato dai test, quando gli utenti richiedono immagini in questa modalità particolare, il sistema a volte "defaulta" verso la creazione di deepfake inappropriati, letteralmente "strappando via" i vestiti dalle figure rappresentate.

L'aspetto più preoccupante è che questa falla sembra essere selettiva nella sua manifestazione. I ricercatori hanno notato che Grok rifiuta correttamente di alterare l'aspetto di Swift in altri modi, come modificarne il peso corporeo, e mantiene rigide protezioni quando si tratta di contenuti che coinvolgono minori. Tuttavia, la distinzione tra richieste legittime di contenuti "piccanti" da parte di utenti adulti e contenuti illegali rimane problematica per l'algoritmo.

La risposta di X e le prospettive legali

L'account ufficiale X Safety ha comunicato che i team stanno rimuovendo attivamente tutte le immagini identificate e prendendo provvedimenti appropriati contro gli account responsabili della loro pubblicazione. La piattaforma ha inoltre assicurato un monitoraggio continuo della situazione per garantire che eventuali ulteriori violazioni vengano immediatamente affrontate, ribadendo l'impegno a mantenere un ambiente sicuro e rispettoso per tutti gli utenti.

Il confine tra contenuti audaci e illegali resta difficile da definire per l'IA

Nonostante le dichiarazioni ufficiali, X potrebbe dover intensificare significativamente il monitoraggio dei contenuti generati da Grok. Il sistema ha paradossalmente citato proprio il reporting di The Verge mentre confermava che il suo design apparentemente difettoso può innescare output parzialmente espliciti di celebrità. Questa auto-conferma del problema evidenzia la complessità tecnica della questione e la necessità di interventi più sofisticati.

Soluzioni tecniche e tempistiche critiche

Gli esperti di xAI ritengono che il problema possa essere risolto attraverso un fine-tuning più accurato del sistema. I test hanno dimostrato che le protezioni funzionano quando vengono richieste direttamente immagini inappropriate di Swift, restituendo invece riquadri vuoti. Questo indica che la tecnologia per prevenire tali contenuti esiste già, ma necessita di calibrazioni più precise per gestire i casi limite della modalità "spicy".

La tempistica per la risoluzione di questi problemi è cruciale, considerando l'imminente entrata in vigore della nuova legislazione. Con il Take It Down Act che inizierà ad essere applicato dal prossimo anno, xAI potrebbe affrontare conseguenze legali significative se non dovesse correggere rapidamente le falle di Grok. Nel frattempo, Elon Musk ha continuato a promuovere Grok Imagine sui social media, incoraggiando gli utenti a condividere le loro "creazioni", senza commentare direttamente le problematiche emerse dal reporting investigativo.

Fonte dell'articolo: arstechnica.com