DarkBERT è l'AI che decifra il linguaggio del dark web

Alcuni ricercatori hanno sviluppato un nuovo modello linguistico chiamato DarkBERT addestrato sui dati provenienti dal dark web.

Avatar di Luca Zaninello

a cura di Luca Zaninello

Managing Editor

Il dark web è una parte nascosta di Internet a cui si può accedere solo attraverso un browser speciale come Tor. Viene spesso utilizzato per attività illegali come il traffico di droga, l'hacking e la criminalità informatica. Il dark web ha anche una cultura tutta propria e in esso viene utilizzato un linguaggio in codice che lo rendono di difficile comprensione per gli "estranei".

Per affrontare questa sfida, i ricercatori della Corea del Sud hanno sviluppato un nuovo modello linguistico chiamato DarkBERT addestrato sui dati provenienti dal dark web stesso.

DarkBERT si basa sull'architettura RoBERTa, un modello AI all'avanguardia in grado di elaborare grandi quantità di testo e generare risposte in linguaggio naturale. DarkBERT è in grado di analizzare un nuovo contenuto del dark web e di estrarne informazioni utili, come l'argomento, il sentiment e l'intento dell'autore.

DarkBERT è il risultato di un enorme processo di raccolta e filtraggio dei dati. I ricercatori hanno effettuato un crawling del dark web attraverso la rete Tor e hanno raccolto oltre 1,2 miliardi di parole di testo da varie fonti, come forum, blog, marketplace e chat room. Hanno poi applicato tecniche come la deduplicazione, il bilanciamento delle categorie e la pre-elaborazione dei dati per generare un database del dark web di alta qualità. Hanno utilizzato questo database per perfezionare il modello RoBERTa e creare DarkBERT.

I ricercatori hanno valutato DarkBERT su diversi compiti, come la classificazione del testo, l'analisi del sentiment, la modellazione degli argomenti e la risposta alle domande. Hanno confrontato DarkBERT con altri modelli linguistici di grandi dimensioni, come BERT, RoBERTa e ChatGPT. Hanno scoperto che DarkBERT ha superato tutti questi modelli nella maggior parte dei compiti, dimostrando di aver appreso le caratteristiche e i modelli specifici del linguaggio del dark web.

DarkBERT è uno strumento nuovo e potente per l'analisi del dark web. Può aiutare i ricercatori di sicurezza e le forze dell'ordine a monitorare e comprendere le attività e le tendenze del dark web. Può anche aiutare i ricercatori a studiare gli aspetti sociali e psicologici degli utenti e delle comunità del dark web.

Tuttavia, DarkBERT pone anche alcune sfide etiche e legali. Ad esempio, come possiamo garantire che DarkBERT non venga utilizzato per scopi dannosi, come la generazione di contenuti falsi o dannosi sul dark web? Come possiamo proteggere la privacy e l'anonimato degli utenti del dark web i cui dati sono stati utilizzati per addestrare DarkBERT? Come gestire le potenziali distorsioni e gli errori nei risultati di DarkBERT? Queste sono alcune delle domande che devono essere affrontate prima che DarkBERT possa essere adottato e diffuso su larga scala.