Il dark web è una parte nascosta di Internet a cui si può accedere solo attraverso un browser speciale come Tor. Viene spesso utilizzato per attività illegali come il traffico di droga, l’hacking e la criminalità informatica. Il dark web ha anche una cultura tutta propria e in esso viene utilizzato un linguaggio in codice che lo rendono di difficile comprensione per gli “estranei”.

Per affrontare questa sfida, i ricercatori della Corea del Sud hanno sviluppato un nuovo modello linguistico chiamato DarkBERT addestrato sui dati provenienti dal dark web stesso.

Photo Credit: Unsplash.com

DarkBERT si basa sull’architettura RoBERTa, un modello AI all’avanguardia in grado di elaborare grandi quantità di testo e generare risposte in linguaggio naturale. DarkBERT è in grado di analizzare un nuovo contenuto del dark web e di estrarne informazioni utili, come l’argomento, il sentiment e l’intento dell’autore.

DarkBERT è il risultato di un enorme processo di raccolta e filtraggio dei dati. I ricercatori hanno effettuato un crawling del dark web attraverso la rete Tor e hanno raccolto oltre 1,2 miliardi di parole di testo da varie fonti, come forum, blog, marketplace e chat room. Hanno poi applicato tecniche come la deduplicazione, il bilanciamento delle categorie e la pre-elaborazione dei dati per generare un database del dark web di alta qualità. Hanno utilizzato questo database per perfezionare il modello RoBERTa e creare DarkBERT.

I ricercatori hanno valutato DarkBERT su diversi compiti, come la classificazione del testo, l’analisi del sentiment, la modellazione degli argomenti e la risposta alle domande. Hanno confrontato DarkBERT con altri modelli linguistici di grandi dimensioni, come BERT, RoBERTa e ChatGPT. Hanno scoperto che DarkBERT ha superato tutti questi modelli nella maggior parte dei compiti, dimostrando di aver appreso le caratteristiche e i modelli specifici del linguaggio del dark web.

DarkBERT è uno strumento nuovo e potente per l’analisi del dark web. Può aiutare i ricercatori di sicurezza e le forze dell’ordine a monitorare e comprendere le attività e le tendenze del dark web. Può anche aiutare i ricercatori a studiare gli aspetti sociali e psicologici degli utenti e delle comunità del dark web.

Tuttavia, DarkBERT pone anche alcune sfide etiche e legali. Ad esempio, come possiamo garantire che DarkBERT non venga utilizzato per scopi dannosi, come la generazione di contenuti falsi o dannosi sul dark web? Come possiamo proteggere la privacy e l’anonimato degli utenti del dark web i cui dati sono stati utilizzati per addestrare DarkBERT? Come gestire le potenziali distorsioni e gli errori nei risultati di DarkBERT? Queste sono alcune delle domande che devono essere affrontate prima che DarkBERT possa essere adottato e diffuso su larga scala.