Wikipedia e IA: pericolo per lingue minoritarie

Quando si tratta di preservare lingue che rischiano l'estinzione, Wikipedia dovrebbe essere un alleato prezioso. Tuttavia, per molte comunità linguistiche minoritarie, la famosa enciclopedia online si è trasformata in una minaccia silenziosa che potrebbe accelerare il declino delle loro tradizioni orali. Il problema è tanto subdolo quanto devastante: migliaia di articoli apparentemente scritti in lingue rare sono in realtà traduzioni automatiche piene di errori, create da persone che non parlano affatto quelle lingue. Questo fenomeno sta creando un circolo vizioso che avvelena l'intelligenza artificiale e mette a rischio il futuro digitale di idiomi già fragili.

Il crollo della Wikipedia groenlandese

La storia più emblematica di questo disastro linguistico è quella di Kenneth Wehr, un tedesco di 26 anni ossessionato dalla Groenlandia sin dall'adolescenza. Quattro anni fa, quando ha assunto la gestione della versione groenlandese di Wikipedia, la sua prima decisione è stata drastica: cancellare quasi tutto. Non si trattava di un gesto impulsivo, ma di una scelta necessaria per salvare ciò che restava di autentico.

Wehr, che oggi insegna groenlandese in Danimarca, aveva scoperto una verità scomoda. Dei circa 1.500 articoli presenti nell'edizione groenlandese, praticamente tutti erano stati scritti da persone che non conoscevano la lingua. Le pagine pullulavaano di errori grammaticali elementari, parole prive di senso e imprecisioni clamorose, come un articolo che attribuiva al Canada soli 41 abitanti. "Poteva sembrare groenlandese agli autori, ma non avevano modo di saperlo", spiega Wehr.

Un fenomeno globale che minaccia le lingue vulnerabili

Il caso groenlandese non è isolato. Volontari che lavorano su quattro lingue africane stimano che tra il 40% e il 60% degli articoli nelle loro edizioni di Wikipedia sono traduzioni automatiche non corrette. Un'analisi dell'edizione in inuktitut, lingua indigena canadese simile al groenlandese, rivela che oltre due terzi delle pagine contengono porzioni create con l'intelligenza artificiale.

"È una questione di spazzatura in entrata, spazzatura in uscita"

Kevin Scannell, ex professore di informatica che sviluppa software per lingue a rischio estinzione, spiega il meccanismo perverso: "Questi modelli sono costruiti su dati grezzi. Non ci sono libri di grammatica o dizionari. Non c'è nulla oltre al testo inserito". Quando Wikipedia rappresenta più della metà dei dati di addestramento per alcune lingue africane come il malgascio o lo yoruba, gli errori si moltiplicano esponenzialmente.

I "dirottatori" di Wikipedia armati di Google Translate

Trond Trosterud, linguista computazionale dell'Università di Tromsø, ha identificato un fenomeno preoccupante: l'emergere di "dirottatori di Wikipedia" che utilizzano strumenti di traduzione automatica per creare contenuti in lingue che non parlano. Questi utenti spaziano da adolescenti ingenui a wikipediani ben intenzionati che credono di "aiutare" le comunità minoritarie.

Il problema è che l'intelligenza artificiale ha industrializzato la distruzione. Se prima questi utenti erano "armati solo di dizionari", ora Google Translate permette loro di produrre contenuti molto più lunghi e apparentemente plausibili. Le lingue vulnerabili ne risentono maggiormente, poiché i sistemi di traduzione automatica sono particolarmente inaffidabili con idiomi poco rappresentati online.

Quando l'aiuto diventa danno

Yuet Man Lee, insegnante canadese sui vent'anni, rappresenta perfettamente questa problematica. Ha utilizzato una combinazione di Google Translate e ChatGPT per tradurre alcuni suoi articoli dall'inglese all'inuktitut, pensando di dare una mano a una comunità Wikipedia più piccola. "Non pensavo che nessuno se ne sarebbe accorto", ammette. "Se metti qualcosa sulle Wikipedia minori, la maggior parte delle volte nessuno fa niente".

Lee descrive questo atteggiamento come "arroganza da Wikipedia più grande": gli utenti abituati alle edizioni più attive assumono che altri arriveranno a correggere i loro errori. Ma per l'inuktitut, che definisce una "terra desolata", questo non accade mai. Nessuno ha mai toccato l'articolo da quando l'ha creato.

Le conseguenze concrete per le comunità

Gli effetti di questo inquinamento linguistico vanno ben oltre Wikipedia. Abdulkadir Abdulkadir, pianificatore agricolo nigeriano di 26 anni, dedica tre ore al giorno a correggere articoli nella sua lingua nativa fulfulde. Suggerisce Wikipedia come risorsa online per agricoltori in villaggi remoti, ma i contenuti tradotti automaticamente potrebbero "facilmente danneggiarli" fornendo informazioni agricole sbagliate.

Google Translate, per esempio, traduce la parola fulfulde per "gennaio" come "giugno", mentre ChatGPT la interpreta come "agosto" o "settembre". Il termine per "raccolto" viene reso come "febbre" o "benessere". Con errori del genere, le conseguenze per comunità che dipendono dall'agricoltura possono essere devastanti.

La storia di successo del saami di Inari

Non tutto è perduto. Il saami di Inari, parlato in una singola comunità remota della Finlandia settentrionale, dimostra come Wikipedia possa funzionare anche per le lingue minori. Quarant'anni fa la lingua stava per estinguersi: restavano solo quattro bambini che la parlavano. Oggi ci sono diverse centinaia di parlanti e 6.400 articoli Wikipedia, ognuno revisionato da un parlante fluente.

Fabrizio Brecciaroli dell'Associazione per la Lingua Saami di Inari spiega la filosofia: "Non ci interessa la quantità. Ci interessa la qualità. Stiamo pianificando di usare Wikipedia come repository per la lingua scritta". Il successo è tale che Wikipedia è stata integrata nel curriculum scolastico e gli insegnanti chiamano Brecciaroli per richiedere articoli su argomenti che vanno dai tornado al folklore saami.

Una corsa contro il tempo

La chiusura della Wikipedia groenlandese, approvata all'inizio di quest'anno, rappresenta un precedente inquietante. Tra le ragioni citate dal Comitato Linguistico figurano proprio l'uso di strumenti di intelligenza artificiale che hanno "frequentemente prodotto assurdità che potrebbero rappresentare erroneamente la lingua".

Tuttavia, potrebbe essere troppo tardi: gli errori in groenlandese sembrano già radicati nei traduttori automatici. Né Google Translate né ChatGPT riescono a contare correttamente fino a 10 in groenlandese corretto. Per molte lingue minoritarie, la sfida è diventata una corsa contro il tempo per creare contenuti di qualità prima che l'intelligenza artificiale si nutra definitivamente di dati corrotti, condannando intere tradizioni linguistiche a un futuro digitale distorto.

Fonte dell'articolo: www.technologyreview.com