DarkBERTとは何ですか? AI はサイバー脅威との戦いに役立つでしょうか?

大規模言語モデル (LLM) の人気は急速に高まっており、新しいモデルが常に登場しています。ChatGPTのようなモデルは通常、記事、Web サイト、書籍、ソーシャルメディアなど、さまざまなインターネットソースでトレーニングされます。

韓国の研究者チームは、ダークウェブのみからソースされたデータセットでトレーニングされた LLM である DarkBERT を開発しました。彼らの目的は、既存の言語モデルを上回るパフォーマンスを発揮し、オンラインの脅威に対する脅威研究者、法執行機関、サイバーセキュリティ専門家の取り組みを支援する AI ツールを作成することです。

DarkBERTとは何ですか?

DarkBERT は、RoBERTa アーキテクチャに基づいたエンコーダモデルです。LLM は、ハッキングフォーラム、フィッシングサイト、および違法行為に関与するその他のオンラインソースからのデータを含む、何百万ものダーク Web サイトでトレーニングを受けてきました。

「ダークウェブ」という用語は、標準のウェブブラウザからはアクセスできない、インターネットの隠された部分を指します。インターネットのこの部分は、匿名の Web サイトや、盗まれたデータ、麻薬、武器の販売などの違法市場が存在することで有名です。

DarkBERT をトレーニングするために、研究者は Tor ネットワークを通じてダーク Web にアクセスし、生データを収集しました。彼らは、重複排除、カテゴリのバランシング、前処理などの技術を使用してこのデータを慎重にフィルタリングして、微調整されたダーク Web データベースを作成し、それを約 15 日間かけて RoBERTa に供給して DarkBERT を作成しました。

サイバーセキュリティにおける DarkBERT アプリケーション

DarkBERTとは何ですか? AI はサイバー脅威との戦いに役立つでしょうか?

DarkBERT はサイバー犯罪者の言語をよく理解しており、特定の潜在的な脅威の検出に優れています。ダークウェブを調査し、データ漏洩やランサムウェアなどのサイバーセキュリティの脅威を特定してフラグを立てることができるため、オンラインの脅威に対抗するための潜在的に役立つツールになります。

arxiv.org に投稿された調査によると、DarkBERT の有効性を評価するために、研究者が DarkBERT を 2 つの有名な NLP モデル、BERT および RoBERTa と比較し、ネットワークセキュリティに関連する 3 つの重要なアプリケーションのパフォーマンスを評価したことが示されています。

1. ダークウェブフォーラムを監視して、有害な可能性のあるトピックがないか確認する

違法な情報交換によく使用されるダークウェブフォーラムを監視することは、潜在的に危険なトピックを特定するために重要です。ただし、これらを手動で確認するには時間がかかるため、プロセスの自動化はセキュリティ専門家にとって有益です。

研究者らは、ハッキングフォーラムでの潜在的に有害な活動に焦点を当て、機密データの共有やマルウェアの配布、重大な害や脆弱性などの注目すべきトピックへの注釈付きガイドを提供しました。

DarkBERT は、精度、再現率、F1 スコアの点で他の言語モデルを上回っており、ダークウェブ上でニュース価値のあるトピックを特定するための優れた選択肢として浮上しています。

2. 機密情報をホストするページを検出する

ハッカーやランサムウェアグループは、ダーク Web を利用して漏洩 Web サイトを作成し、身代金の要求に応じることを拒否した組織から盗んだ機密データを公開します。他のサイバー犯罪者は、パスワードや財務情報などの漏洩した機密データを販売する目的でダークウェブにアップロードするだけです。

研究者らは研究の中で、悪名高いランサムウェアグループからデータを収集し、組織の個人データを公開するランサムウェア漏洩 Web サイトを分析しました。DarkBERT は、そのようなサイトの識別と分類において他の言語モデルよりも優れており、ダーク Web の地下ハッキングフォーラムで使用される言語を理解していることを示しています。

3. ダークウェブ上の脅威に関連するキーワードを特定する

DarkBERTとは何ですか? AI はサイバー脅威との戦いに役立つでしょうか?