ChatGPT 태스크포스는 유럽에서 설립될 예정입니다.
유럽의 국가 개인 정보 보호 감시 단체를 통합하는 기관은 목요일에 ChatGPT 전담 태스크 포스를 설립했다고 밝혔습니다.
LLM(대형 언어 모델)의 인기가 치솟고 있으며 새로운 모델이 지속적으로 등장하고 있습니다. ChatGPT 와 같은 모델은 일반적으로 기사, 웹사이트, 서적, 소셜 미디어를 포함한 다양한 인터넷 소스에서 훈련됩니다.
한국 연구진으로 구성된 팀이 다크 웹 에서만 제공되는 데이터 세트에 대해 훈련된 LLM인 DarkBERT를 개발했습니다 . 이들의 목표는 기존 언어 모델보다 성능이 뛰어나고 위협 연구원, 법 집행 기관 및 사이버 보안 전문가가 온라인 위협에 맞서 노력할 수 있도록 지원하는 AI 도구를 만드는 것입니다.
DarkBERT란 무엇인가요?
DarkBERT는 RoBERTa 아키텍처를 기반으로 한 인코더 모델입니다. LLM은 해킹 포럼, 피싱 사이트 및 불법 활동과 관련된 기타 온라인 소스의 데이터를 포함하여 수백만 개의 다크 웹 사이트에 대한 교육을 받았습니다.
"다크 웹"이라는 용어는 표준 웹 브라우저를 통해 접속할 수 없는 인터넷의 숨겨진 부분을 의미합니다. 인터넷의 이 부분은 익명의 웹사이트와 훔친 데이터, 마약, 무기 판매와 같은 불법 시장을 숨기는 것으로 악명 높습니다.
DarkBERT를 훈련시키기 위해 연구원들은 Tor 네트워크를 통해 다크 웹에 접근하고 원시 데이터를 수집했습니다. 이들은 중복 제거, 카테고리 밸런싱, 전처리 등의 기술을 사용하여 이 데이터를 신중하게 필터링하여 미세 조정된 다크 웹 데이터베이스를 생성한 후 약 15일에 걸쳐 RoBERTa에 공급되어 DarkBERT를 생성했습니다.
사이버 보안의 DarkBERT 애플리케이션
DarkBERT는 사이버 범죄자의 언어를 잘 이해하고 있으며 특정 잠재적 위협을 탐지하는 데 탁월합니다. 다크 웹을 조사하고 데이터 유출 및 랜섬웨어와 같은 사이버 보안 위협을 성공적으로 식별하고 표시할 수 있으므로 온라인 위협에 대처하는 데 잠재적으로 유용한 도구가 됩니다.
arxiv.org에 게시된 연구에 따르면 연구원들은 DarkBERT의 효율성을 평가하기 위해 이를 두 가지 유명한 NLP 모델인 BERT 및 RoBERTa와 비교하여 네트워크 보안과 관련된 세 가지 사용 사례에서 성능을 평가했습니다.
1. 잠재적으로 유해한 주제에 대한 다크 웹 포럼을 모니터링합니다.
불법 정보 교환에 자주 사용되는 다크 웹 포럼을 모니터링하는 것은 잠재적으로 위험한 주제를 식별하는 데 중요합니다. 그러나 이를 수동으로 검토하는 것은 시간이 많이 걸릴 수 있으므로 프로세스를 자동화하는 것이 보안 전문가에게 도움이 됩니다.
연구원들은 해킹 포럼에서 잠재적으로 유해한 활동에 초점을 맞춰 기밀 데이터 공유, 맬웨어 배포, 심각한 피해 또는 취약성을 포함한 주목할만한 주제에 대한 주석이 달린 가이드를 제공했습니다.
DarkBERT는 정밀도, 재현율, F1 점수 측면에서 다른 언어 모델보다 성능이 뛰어나 다크 웹에서 뉴스 가치가 있는 주제를 식별하는 데 탁월한 선택으로 떠오르고 있습니다.
2. 기밀 정보를 호스팅하는 페이지 감지
해커와 랜섬웨어 그룹은 다크 웹을 사용하여 몸값 요구를 거부하는 조직에서 훔친 기밀 데이터를 게시하는 유출 웹사이트를 만듭니다. 다른 사이버 범죄자들은 비밀번호, 금융 정보 등 유출된 민감한 데이터를 판매할 목적으로 다크 웹에 업로드합니다.
연구진은 연구에서 악명 높은 랜섬웨어 그룹으로부터 데이터를 수집하고 조직의 개인 데이터를 게시하는 랜섬웨어 유출 웹사이트를 분석했습니다. DarkBERT는 이러한 사이트를 식별하고 분류하는 데 있어 다른 언어 모델보다 성능이 뛰어나며 다크 웹의 지하 해킹 포럼에서 사용되는 언어에 대한 이해를 보여줍니다.
3. 다크웹 위협 관련 키워드 파악
DarkBERT는 BERT 제품군 언어 모델에 내재된 기능인 마스크 채우기를 활용하여 어두운 면에서의 마약 판매를 포함한 불법 활동과 관련된 키워드를 정확하게 식별합니다.
약물 판매 페이지에 "MDMA"라는 단어가 숨겨져 있을 때 DarkBERT는 약물 관련 단어를 생성한 반면, 다른 모델은 업계의 다양한 직업과 같이 약물과 관련되지 않은 일반적인 단어 및 용어를 제안했습니다.
불법 활동과 관련된 키워드를 식별하는 DarkBERT의 능력은 새로운 사이버 위협을 추적하고 해결하는 데 유용할 수 있습니다.
일반인이 DarkBERT에 액세스할 수 있나요?
DarkBERT는 현재 대중에게 제공되지 않지만, 기꺼이 연구자가 학문적 목적으로 사용하도록 요청할 수 있습니다.
유럽의 국가 개인 정보 보호 감시 단체를 통합하는 기관은 목요일에 ChatGPT 전담 태스크 포스를 설립했다고 밝혔습니다.
덴마크와 미국 과학자들이 인간의 사망 시간을 높은 정확도로 예측할 수 있는 life2vec이라는 AI 시스템을 개발하기 위해 협력했습니다.
오디오플로우(Audioflow)라는 AI 알고리즘은 배뇨 소리를 듣고 환자의 비정상적인 흐름과 이에 따른 건강 문제를 효과적이고 성공적으로 식별할 수 있습니다.
일본의 인구 노령화와 감소로 인해 특히 서비스 부문에서 상당한 수의 젊은 근로자가 부족해졌습니다.
u/LegalBeagle1966이라는 Reddit 사용자는 이 플랫폼에서 매혹적인 셀카, 심지어 누드 셀카까지 자주 공유하는 영화배우 같은 소녀인 Claudia에 매료된 많은 사용자 중 한 명입니다.
Microsoft는 최근 12개의 기술 회사가 AI for Good 프로그램에 참여할 것이라고 발표했습니다.
사용자 @mortecouille92는 그래픽 디자인 도구 Midjourney의 강력한 기능을 활용하여 Goku, Vegeta, Bulma 및 Elder Kame과 같은 유명한 Dragon Ball 캐릭터의 독특하고 사실적인 버전을 만들었습니다. .
몇 가지 조건을 추가하거나 몇 가지 시나리오를 설정하는 것만으로도 ChatGPT는 쿼리에 대해 보다 관련성 높은 답변을 제공할 수 있습니다. ChatGPT 응답의 품질을 향상할 수 있는 몇 가지 방법을 살펴보겠습니다.
미드저니(Midjourney)는 실제 작가들의 그림에 뒤지지 않을 만큼 아름다운 그림들로 최근 온라인 커뮤니티와 화가계에 '열풍'을 일으키고 있는 인공지능 시스템이다.
중국이 발병을 발표한 지 며칠 후, BlueDot의 AI 시스템은 전 세계 항공권 판매 데이터에 액세스하여 우한 코로나 바이러스가 방콕, 서울, 타이베이, 도쿄로 확산되는 것을 계속해서 정확하게 예측했습니다.