De populariteit van grote taalmodellen (LLM's) stijgt enorm en er verschijnen voortdurend nieuwe modellen. Modellen zoals ChatGPT worden doorgaans getraind op een verscheidenheid aan internetbronnen, waaronder artikelen, websites, boeken en sociale media.
Een team van Koreaanse onderzoekers ontwikkelde DarkBERT, een LLM die is getraind in datasets die uitsluitend afkomstig zijn van het dark web . Hun doel is om een AI-tool te creëren die beter presteert dan bestaande taalmodellen en die dreigingsonderzoekers, wetshandhavings- en cyberbeveiligingsprofessionals helpt bij hun inspanningen tegen online dreigingen.
Wat is DarkBERT?
DarkBERT is een encodermodel gebaseerd op de RoBERTa-architectuur. LLM is getraind op miljoenen dark websites, inclusief gegevens van hackforums, phishing-sites en andere online bronnen die betrokken zijn bij illegale activiteiten.
De term ‘dark web’ verwijst naar een verborgen deel van het internet dat niet toegankelijk is via standaard webbrowsers. Dit deel van het internet is berucht omdat het anonieme websites en illegale markten herbergt, zoals de verkoop van gestolen gegevens, drugs en wapens.
Om DarkBERT te trainen, kregen onderzoekers via het Tor-netwerk toegang tot het dark web en verzamelden ze ruwe gegevens. Ze hebben deze gegevens zorgvuldig gefilterd met behulp van technieken zoals deduplicatie, categorieverdeling en voorverwerking om een verfijnde dark web-database te creëren, die vervolgens gedurende ongeveer 15 dagen aan RoBERTa werd ingevoerd om DarkBERT te creëren.
DarkBERT-toepassingen in cyberbeveiliging

DarkBERT heeft een superieur begrip van de taal van cybercriminelen en blinkt uit in het detecteren van specifieke potentiële bedreigingen. Het kan het dark web onderzoeken en met succes cyberbedreigingen zoals datalekken en ransomware identificeren en signaleren, waardoor het een potentieel nuttig hulpmiddel is om online bedreigingen te bestrijden.
Uit onderzoek op arxiv.org blijkt dat onderzoekers, om de effectiviteit van DarkBERT te evalueren, het vergeleken met twee beroemde NLP-modellen, BERT en RoBERTa, waarbij hun prestaties in drie belangrijke toepassingen met betrekking tot netwerkbeveiliging werden geëvalueerd.
1. Controleer Dark Web-forums op mogelijk schadelijke onderwerpen
Het monitoren van dark web-forums, die vaak worden gebruikt voor illegale informatie-uitwisseling, is belangrijk om potentieel gevaarlijke onderwerpen te identificeren. Het handmatig beoordelen hiervan kan echter tijdrovend zijn, waardoor het automatiseren van het proces gunstig is voor beveiligingsprofessionals.
De onderzoekers concentreerden zich op potentieel schadelijke activiteiten op hackforums en gaven geannoteerde handleidingen voor opmerkelijke onderwerpen, waaronder het delen van vertrouwelijke gegevens en het verspreiden van malware, ernstige schade of kwetsbaarheid.
DarkBERT presteert beter dan andere taalmodellen op het gebied van precisie, herinnering en F1-score en komt naar voren als een superieure keuze voor het identificeren van nieuwswaardige onderwerpen op het dark web.
2. Detecteer pagina's die vertrouwelijke informatie bevatten
Hackers en ransomwaregroepen gebruiken het dark web om lekkende websites te maken waarop ze vertrouwelijke gegevens publiceren die zijn gestolen van organisaties die weigeren te voldoen aan losgeldeisen. Andere cybercriminelen uploaden eenvoudigweg gelekte gevoelige gegevens, zoals wachtwoorden en financiële informatie, naar het dark web met de bedoeling deze te verkopen.
In hun onderzoek verzamelden de onderzoekers gegevens van beruchte ransomwaregroepen en analyseerden ze ransomware-lekkende websites die privégegevens van organisaties publiceren. DarkBERT presteert beter dan andere taalmodellen bij het identificeren en classificeren van dergelijke sites, waarmee het zijn begrip aantoont van de taal die wordt gebruikt in ondergrondse hackforums op het dark web.
3. Identificeer trefwoorden die verband houden met bedreigingen op het Dark Web
![Wat is DarkBERT? Kan AI cyberdreigingen helpen bestrijden? Wat is DarkBERT? Kan AI cyberdreigingen helpen bestrijden?]()
DarkBERT maakt gebruik van maskervulling, een functie die inherent is aan BERT-familietaalmodellen, om nauwkeurig trefwoorden te identificeren die verband houden met illegale activiteiten, waaronder de verkoop van drugs op het dark side.web.
Toen het woord "MDMA" verborgen was op een verkooppagina voor drugs, genereerde DarkBERT drugsgerelateerde woorden, terwijl andere modellen generieke, niet-drugsgerelateerde woorden en termen suggereerden, zoals sectoren en verschillende beroepen.
Het vermogen van DarkBERT om trefwoorden te identificeren die verband houden met illegale activiteiten kan waardevol zijn bij het opsporen en aanpakken van opkomende cyberdreigingen.
Kan het publiek toegang krijgen tot DarkBERT?
DarkBERT is momenteel niet beschikbaar voor het publiek, maar bereidwillige onderzoekers kunnen het gebruik ervan voor academische doeleinden aanvragen.