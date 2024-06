Human Rights Watch (HRW) ha lanciato un allarme sui grossi rischi per la privacy dei bambini brasiliani: le loro fotografie, prese e utilizzate senza consenso, sono state utilizzate per addestrare alcuni strumenti di intelligenza artificiale, tra cui dei popolari generatori di immagini come Stable Diffusion. Hye Jung Han, una ricercatrice di HRW, ha rivelato che queste immagini sono state estratte da LAION-5B, un database costruito da snapshot di Common Crawl del web pubblico che racchiude immagini e testi derivati da 5,85 miliardi di immagini e didascalie online dal 2008.

In un'analisi di meno dello 0,0001% del dataset LAION-5B, Han ha scoperto 170 foto di bambini provenienti da almeno 10 stati del Brasile. Le immagini, spesso caricate su blog personali di difficile accesso pubblico, includono anche fotogrammi di video YouTube con poche visualizzazioni, apparentemente condivisi per uso privato tra familiari e amici. La LAION, un'organizzazione no-profit tedesca che ha creato il dataset, ha collaborato con HRW per rimuovere i collegamenti alle immagini dei bambini nel database.

Tuttavia, la rimozione dei link non risolve interamente il problema. Secondo HRW, il numero di immagini rimosse potrebbe essere nettamente inferiore rispetto al totale dei dati personali dei bambini presenti in LAION-5B. Ci sono inoltre timori che il dataset possa ancora fare riferimento a foto personali di bambini da tutto il mondo. Inoltre, la rimozione dei collegamenti non elimina le immagini dal web publico, dove possono essere ancora referenziate e utilizzate in altri dataset di IA.

Secondo HRW, molte delle identità dei bambini brasiliani erano facilmente rintracciabili poiché i loro nomi e le località erano inclusi nelle didascalie delle immagini utilizzate per costruire il dataset. Le foto analizzate coprono periodi estesi della vita dei minori, documentando momenti intimi come nascite, compleanni o la quotidianità domestica e scolastica.

Il rischio che le foto di questi bambini alimentino attualmente gli strumenti di IA è diminuito, dal momento che tutte le versioni pubblicamente disponibili di LAION-5B sono state rimosse a seguito della scoperta dei collegamenti. LAION sta lavorando con diverse organizzazioni per rimuovere tutti i riferimenti noti a contenuti illegali da LAION-5B e spera di ripubblicare presto una versione rivista del dataset.