O que é DarkBERT? A IA pode ajudar a combater ameaças cibernéticas?

A popularidade dos grandes modelos de linguagem (LLMs) está disparando, com novos modelos aparecendo constantemente. Modelos como o ChatGPT são normalmente treinados em uma variedade de fontes da Internet, incluindo artigos, sites, livros e mídias sociais.

Uma equipe de pesquisadores coreanos desenvolveu o DarkBERT, um LLM treinado em conjuntos de dados provenientes exclusivamente da dark web . Seu objetivo é criar uma ferramenta de IA que supere os modelos de linguagem existentes e auxilie pesquisadores de ameaças, autoridades policiais e profissionais de segurança cibernética em seus esforços contra ameaças online.

O que é DarkBERT?

DarkBERT é um modelo de codificador baseado na arquitetura RoBERTa. O LLM foi treinado em milhões de sites obscuros, incluindo dados de fóruns de hackers, sites de phishing e outras fontes on-line envolvidas em atividades ilegais.

O termo “dark web” refere-se a uma parte oculta da Internet que não é acessível através de navegadores padrão. Esta parte da Internet é conhecida por abrigar sites anônimos e mercados ilegais, como a venda de dados roubados, drogas e armas.

Para treinar o DarkBERT, os pesquisadores obtiveram acesso à dark web por meio da rede Tor e coletaram dados brutos. Eles filtraram cuidadosamente esses dados usando técnicas como desduplicação, balanceamento de categoria e pré-processamento para criar um banco de dados dark web ajustado, que foi então alimentado no RoBERTa durante cerca de 15 dias para criar o DarkBERT.

Aplicações DarkBERT em segurança cibernética

O que é DarkBERT? A IA pode ajudar a combater ameaças cibernéticas?

DarkBERT tem um conhecimento superior da linguagem dos cibercriminosos e é excelente na detecção de ameaças potenciais específicas. Ele pode pesquisar a dark web e identificar e sinalizar com sucesso ameaças à segurança cibernética, como vazamentos de dados e ransomware, tornando-se uma ferramenta potencialmente útil para combater ameaças online.

Uma pesquisa publicada no arxiv.org mostra que para avaliar a eficácia do DarkBERT, os pesquisadores o compararam com dois modelos famosos de PNL, BERT e RoBERTa, avaliando seu desempenho em três casos de uso importantes relacionados à segurança de rede.

1. Monitore os fóruns da Dark Web em busca de tópicos potencialmente prejudiciais

Monitorar fóruns da dark web, frequentemente usados para trocas ilegais de informações, é importante para identificar tópicos potencialmente perigosos. No entanto, revisá-los manualmente pode ser demorado, tornando a automação do processo benéfica para os profissionais de segurança.

Os pesquisadores se concentraram em atividades potencialmente prejudiciais em fóruns de hackers, fornecendo guias comentados sobre tópicos importantes, incluindo compartilhamento de dados confidenciais e distribuição de malware, danos graves ou vulnerabilidade.

DarkBERT supera outros modelos de linguagem em termos de precisão, recall e pontuação F1, emergindo como uma escolha superior para identificar tópicos de interesse jornalístico na dark web.

2. Detecte páginas que hospedam informações confidenciais

Hackers e grupos de ransomware usam a dark web para criar sites de vazamento onde publicam dados confidenciais roubados de organizações que se recusam a cumprir os pedidos de resgate. Outros cibercriminosos simplesmente carregam dados confidenciais vazados, como senhas e informações financeiras, para a dark web com a intenção de vendê-los.

Em seu estudo, os pesquisadores coletaram dados de grupos de ransomware notórios e analisaram sites de vazamento de ransomware que publicam dados privados de organizações. DarkBERT supera outros modelos de linguagem na identificação e classificação de tais sites, demonstrando sua compreensão da linguagem usada em fóruns de hackers clandestinos na dark web.

3. Identifique palavras-chave relacionadas a ameaças na Dark Web

O que é DarkBERT? A IA pode ajudar a combater ameaças cibernéticas?

O DarkBERT aproveita o preenchimento de máscaras, um recurso inerente aos modelos de linguagem da família BERT, para identificar com precisão palavras-chave relacionadas a atividades ilegais, incluindo vendas de drogas no lado obscuro da web.

Quando a palavra “MDMA” estava escondida em uma página de vendas de medicamentos, o DarkBERT gerava palavras relacionadas a medicamentos, enquanto outros modelos sugeriam palavras e termos genéricos não relacionados a medicamentos, como indústrias e profissões diferentes.

A capacidade do DarkBERT de identificar palavras-chave associadas a atividades ilegais pode ser valiosa no rastreamento e no tratamento de ameaças cibernéticas emergentes.

O público pode acessar o DarkBERT?

DarkBERT não está atualmente disponível ao público, mas pesquisadores interessados podem solicitar seu uso para fins acadêmicos.

Deixar um comentário

Como mover a pasta AppData no Windows 10

Aprenda como mover a pasta AppData no Windows 10 para liberar espaço. Siga nosso guia passo a passo para mover a pasta com segurança.

9 prós e contras de usar um LLM local

O maior apelo de um LLM local é a capacidade de replicar os recursos de um chatbot como o ChatGPT em seu computador sem a necessidade de uma versão hospedada na nuvem.

A força-tarefa ChatGPT será criada pela Europa

O órgão que une os vigilantes nacionais da privacidade da Europa disse na quinta-feira que estabeleceu uma força-tarefa dedicada ao ChatGPT

IA prevê a hora da morte humana com 78% de precisão

Cientistas dinamarqueses e americanos colaboraram para desenvolver um sistema de IA chamado life2vec, capaz de prever o momento da morte humana com alta precisão.

IA prevê doenças urinárias apenas pelo som da urina

Um algoritmo de IA chamado Audioflow pode ouvir o som da micção para identificar com eficácia e sucesso fluxos anormais e problemas de saúde correspondentes do paciente.

Bartenders, cuidado: este robô pode preparar um coquetel em apenas 1 minuto

O envelhecimento e o declínio da população do Japão deixaram o país sem um número significativo de jovens trabalhadores, especialmente no sector dos serviços.

Centenas de pessoas ficaram desiludidas quando souberam que a garota que amavam era um produto da IA

Um usuário do Reddit chamado u/LegalBeagle1966 é um dos muitos usuários apaixonados por Claudia, uma garota parecida com uma estrela de cinema que costuma compartilhar selfies sedutoras, até mesmo nuas, nesta plataforma.

Mais 12 empresas potenciais juntam-se à “aliança de IA” da Microsoft.

A Microsoft acaba de anunciar que mais 12 empresas de tecnologia participarão de seu programa AI for Good.

IA recria personagens de Dragon Ball em carne e osso

O usuário @mortecouille92 colocou o poder da ferramenta de design gráfico Midjourney para funcionar e criou versões realistas e únicas de personagens famosos de Dragon Ball como Goku, Vegeta, Bulma e o velho Kame.

7 técnicas para melhorar as respostas do ChatGPT

Apenas adicionando algumas condições ou configurando alguns cenários, o ChatGPT pode dar respostas mais relevantes às suas dúvidas. Vejamos algumas maneiras de melhorar a qualidade de suas respostas do ChatGPT.