DarkBERT란 무엇인가요? AI가 사이버 위협에 대처하는 데 도움이 될 수 있습니까?

LLM(대형 언어 모델)의 인기가 치솟고 있으며 새로운 모델이 지속적으로 등장하고 있습니다. ChatGPT 와 같은 모델은 일반적으로 기사, 웹사이트, 서적, 소셜 미디어를 포함한 다양한 인터넷 소스에서 훈련됩니다.

한국 연구진으로 구성된 팀이 다크 웹 에서만 제공되는 데이터 세트에 대해 훈련된 LLM인 DarkBERT를 개발했습니다 . 이들의 목표는 기존 언어 모델보다 성능이 뛰어나고 위협 연구원, 법 집행 기관 및 사이버 보안 전문가가 온라인 위협에 맞서 노력할 수 있도록 지원하는 AI 도구를 만드는 것입니다.

DarkBERT란 무엇인가요?

DarkBERT는 RoBERTa 아키텍처를 기반으로 한 인코더 모델입니다. LLM은 해킹 포럼, 피싱 사이트 및 불법 활동과 관련된 기타 온라인 소스의 데이터를 포함하여 수백만 개의 다크 웹 사이트에 대한 교육을 받았습니다.

"다크 웹"이라는 용어는 표준 웹 브라우저를 통해 접속할 수 없는 인터넷의 숨겨진 부분을 의미합니다. 인터넷의 이 부분은 익명의 웹사이트와 훔친 데이터, 마약, 무기 판매와 같은 불법 시장을 숨기는 것으로 악명 높습니다.

DarkBERT를 훈련시키기 위해 연구원들은 Tor 네트워크를 통해 다크 웹에 접근하고 원시 데이터를 수집했습니다. 이들은 중복 제거, 카테고리 밸런싱, 전처리 등의 기술을 사용하여 이 데이터를 신중하게 필터링하여 미세 조정된 다크 웹 데이터베이스를 생성한 후 약 15일에 걸쳐 RoBERTa에 공급되어 DarkBERT를 생성했습니다.

사이버 보안의 DarkBERT 애플리케이션

DarkBERT란 무엇인가요? AI가 사이버 위협에 대처하는 데 도움이 될 수 있습니까?

DarkBERT는 사이버 범죄자의 언어를 잘 이해하고 있으며 특정 잠재적 위협을 탐지하는 데 탁월합니다. 다크 웹을 조사하고 데이터 유출 및 랜섬웨어와 같은 사이버 보안 위협을 성공적으로 식별하고 표시할 수 있으므로 온라인 위협에 대처하는 데 잠재적으로 유용한 도구가 됩니다.

arxiv.org에 게시된 연구에 따르면 연구원들은 DarkBERT의 효율성을 평가하기 위해 이를 두 가지 유명한 NLP 모델인 BERT 및 RoBERTa와 비교하여 네트워크 보안과 관련된 세 가지 사용 사례에서 성능을 평가했습니다.

1. 잠재적으로 유해한 주제에 대한 다크 웹 포럼을 모니터링합니다.

불법 정보 교환에 자주 사용되는 다크 웹 포럼을 모니터링하는 것은 잠재적으로 위험한 주제를 식별하는 데 중요합니다. 그러나 이를 수동으로 검토하는 것은 시간이 많이 걸릴 수 있으므로 프로세스를 자동화하는 것이 보안 전문가에게 도움이 됩니다.

연구원들은 해킹 포럼에서 잠재적으로 유해한 활동에 초점을 맞춰 기밀 데이터 공유, 맬웨어 배포, 심각한 피해 또는 취약성을 포함한 주목할만한 주제에 대한 주석이 달린 가이드를 제공했습니다.

DarkBERT는 정밀도, 재현율, F1 점수 측면에서 다른 언어 모델보다 성능이 뛰어나 다크 웹에서 뉴스 가치가 있는 주제를 식별하는 데 탁월한 선택으로 떠오르고 있습니다.

2. 기밀 정보를 호스팅하는 페이지 감지

해커와 랜섬웨어 그룹은 다크 웹을 사용하여 몸값 요구를 거부하는 조직에서 훔친 기밀 데이터를 게시하는 유출 웹사이트를 만듭니다. 다른 사이버 범죄자들은 비밀번호, 금융 정보 등 유출된 민감한 데이터를 판매할 목적으로 다크 웹에 업로드합니다.

연구진은 연구에서 악명 높은 랜섬웨어 그룹으로부터 데이터를 수집하고 조직의 개인 데이터를 게시하는 랜섬웨어 유출 웹사이트를 분석했습니다. DarkBERT는 이러한 사이트를 식별하고 분류하는 데 있어 다른 언어 모델보다 성능이 뛰어나며 다크 웹의 지하 해킹 포럼에서 사용되는 언어에 대한 이해를 보여줍니다.

3. 다크웹 위협 관련 키워드 파악

DarkBERT란 무엇인가요? AI가 사이버 위협에 대처하는 데 도움이 될 수 있습니까?