Qu’est-ce que DarkBERT ? L’IA peut-elle aider à lutter contre les cybermenaces ?

La popularité des grands modèles linguistiques (LLM) monte en flèche et de nouveaux modèles apparaissent constamment. Les modèles comme ChatGPT sont généralement formés sur diverses sources Internet, notamment des articles, des sites Web, des livres et des réseaux sociaux.

Une équipe de chercheurs coréens a développé DarkBERT, un LLM formé sur des ensembles de données provenant exclusivement du dark web . Leur objectif est de créer un outil d'IA qui surpasse les modèles linguistiques existants et aide les chercheurs en menaces, les forces de l'ordre et les professionnels de la cybersécurité dans leurs efforts contre les menaces en ligne.

Qu’est-ce que DarkBERT ?

DarkBERT est un modèle d'encodeur basé sur l'architecture RoBERTa. LLM a été formé sur des millions de sites du Dark Web, y compris des données provenant de forums de piratage, de sites de phishing et d'autres sources en ligne impliquées dans des activités illégales.

Le terme « dark web » fait référence à une partie cachée d’Internet qui n’est pas accessible via les navigateurs Web standards. Cette partie d'Internet est connue pour héberger des sites Web anonymes et des marchés illégaux, tels que la vente de données volées, de drogues et d'armes.

Pour former DarkBERT, les chercheurs ont eu accès au dark web via le réseau Tor et ont collecté des données brutes. Ils ont soigneusement filtré ces données à l'aide de techniques telles que la déduplication, l'équilibrage des catégories et le prétraitement pour créer une base de données Web sombre affinée, qui a ensuite été transmise à RoBERTa pendant environ 15 jours pour créer DarkBERT.

Applications DarkBERT en cybersécurité

Qu’est-ce que DarkBERT ? L’IA peut-elle aider à lutter contre les cybermenaces ?

DarkBERT possède une compréhension supérieure du langage des cybercriminels et excelle dans la détection de menaces potentielles spécifiques. Il peut effectuer des recherches sur le dark web et identifier et signaler avec succès les menaces de cybersécurité telles que les fuites de données et les ransomwares, ce qui en fait un outil potentiellement utile pour lutter contre les menaces en ligne.

Une recherche publiée sur arxiv.org montre que pour évaluer l'efficacité de DarkBERT, les chercheurs l'ont comparé à deux modèles NLP célèbres, BERT et RoBERTa, évaluant leurs performances dans trois cas d'utilisation d'applications importantes liées à la sécurité des réseaux.

1. Surveillez les forums du Dark Web pour détecter les sujets potentiellement dangereux

La surveillance des forums du dark web, souvent utilisés pour les échanges illégaux d’informations, est importante pour identifier les sujets potentiellement dangereux. Cependant, leur examen manuel peut prendre du temps, ce qui rend l'automatisation du processus bénéfique pour les professionnels de la sécurité.

Les chercheurs se sont concentrés sur les activités potentiellement dangereuses dans les forums de piratage, en fournissant des guides annotés sur des sujets notables, notamment le partage de données confidentielles et la distribution de logiciels malveillants, causant des dommages graves ou une vulnérabilité.

DarkBERT surpasse les autres modèles de langage en termes de précision, de rappel et de score F1, devenant ainsi un choix supérieur pour identifier les sujets dignes d'intérêt sur le dark web.

2. Détecter les pages qui hébergent des informations confidentielles

Les pirates informatiques et les groupes de ransomwares utilisent le dark web pour créer des sites Web de fuite sur lesquels ils publient des données confidentielles volées à des organisations qui refusent de se conformer aux demandes de rançon. D’autres cybercriminels téléchargent simplement des données sensibles divulguées, telles que des mots de passe et des informations financières, sur le dark web dans l’intention de les vendre.

Dans leur étude, les chercheurs ont collecté des données auprès de groupes de ransomwares notoires et analysé des sites Web de fuites de ransomwares qui publient des données privées d'organisations. DarkBERT surpasse les autres modèles linguistiques dans l'identification et la classification de ces sites, démontrant sa compréhension du langage utilisé dans les forums de piratage clandestins sur le dark web.

3. Identifiez les mots-clés liés aux menaces sur le Dark Web

Qu’est-ce que DarkBERT ? L’IA peut-elle aider à lutter contre les cybermenaces ?

DarkBERT exploite le remplissage de masques, une fonctionnalité inhérente aux modèles linguistiques de la famille BERT, pour identifier avec précision les mots-clés liés aux activités illégales, y compris les ventes de drogues sur le côté obscur du Web.

Lorsque le mot « MDMA » était masqué sur une page de vente de médicaments, DarkBERT générait des mots liés à la drogue, tandis que d'autres modèles suggéraient des mots et des termes génériques non liés à la drogue, tels que des industries différentes, des professions.

La capacité de DarkBERT à identifier les mots-clés associés à des activités illégales peut s'avérer précieuse pour suivre et traiter les cybermenaces émergentes.

Le public peut-il accéder à DarkBERT ?

DarkBERT n'est actuellement pas accessible au public, mais les chercheurs volontaires peuvent demander son utilisation à des fins académiques.

Laisser un commentaire

Qu’est-ce que Forefront IA ? Est-ce mieux que ChatGPT ?

Forefront AI est une plateforme en ligne qui permet aux entreprises et aux particuliers d’accéder à 5 LLM (grands modèles de langage) différents : GPT-3.5, GPT-4, Claude Instant 1.2, Claude 2 et Forefront.

Comment créer des modèles personnalisés dans DocuSign

Découvrez comment créer des modèles personnalisés dans DocuSign pour faciliter vos processus de signature numérique. Apprenez à configurer un document pour vos fournisseurs et à gérer les messages.

Les applications d’IA peuvent diagnostiquer les maladies sexuellement transmissibles uniquement grâce aux images

Les applications d'IA comme celles développées par HeHealth révolutionnent le diagnostic des maladies sexuellement transmissibles, offrant des solutions pratiques et confidentielles.

Le groupe de travail ChatGPT sera créé par l’Europe

L'organisme qui rassemble les organismes nationaux de surveillance de la vie privée en Europe a annoncé jeudi avoir créé un groupe de travail dédié à ChatGPT.

LIA prédit lheure de la mort humaine avec une précision de 78 %

Des scientifiques danois et américains ont collaboré pour développer un système d'IA appelé life2vec, capable de prédire l'heure de la mort humaine avec une grande précision.

L’IA prédit les maladies urinaires rien qu’au son de l’urine

Un algorithme d’IA appelé Audioflow peut écouter le bruit de la miction pour identifier efficacement et avec succès les flux anormaux et les problèmes de santé correspondants du patient.

Barmans, attention : ce robot peut préparer un cocktail en 1 minute seulement

En raison du vieillissement et du déclin de la population japonaise, le pays manque d'un nombre important de jeunes travailleurs, notamment dans le secteur des services.

Des centaines de personnes ont été déçues lorsqu’elles ont appris que la fille qu’ils aimaient était un produit de l’IA

Un utilisateur de Reddit nommé u/LegalBeagle1966 est l'un des nombreux utilisateurs amoureux de Claudia, une fille ressemblant à une star de cinéma qui partage souvent des selfies séduisants, même nus, sur cette plateforme.

12 autres entreprises potentielles rejoignent « lalliance IA » de Microsoft.

Microsoft vient d'annoncer que 12 autres entreprises technologiques participeront à son programme AI for Good.

LIA recrée les personnages de Dragon Ball en chair et en os

L'utilisateur @mortecouille92 a mis à profit la puissance de l'outil de conception graphique Midjourney et a créé des versions réalistes uniques de personnages célèbres de Dragon Ball comme Goku, Vegeta, Bulma et l'aîné Kame. .