Что такое ДаркБЕРТ? Может ли ИИ помочь в борьбе с киберугрозами?

Популярность больших языковых моделей (LLM) стремительно растет, постоянно появляются новые модели. Такие модели, как ChatGPT, обычно обучаются на различных интернет-источниках, включая статьи, веб-сайты, книги и социальные сети.

Команда корейских исследователей разработала DarkBERT, магистратуру, обученную на наборах данных, полученных исключительно из даркнета . Их цель — создать инструмент искусственного интеллекта, который превосходит существующие языковые модели и помогает исследователям угроз, правоохранительным органам и специалистам по кибербезопасности в их усилиях по борьбе с онлайн-угрозами.

Что такое ДаркБЕРТ?

DarkBERT — это модель кодера, основанная на архитектуре RoBERTa. LLM прошел обучение на миллионах темных веб-сайтов, включая данные хакерских форумов, фишинговых сайтов и других онлайн-источников, занимающихся незаконной деятельностью.

Термин «темная паутина» относится к скрытой части Интернета, недоступной через стандартные веб-браузеры. Эта часть Интернета печально известна наличием анонимных веб-сайтов и незаконных рынков, таких как продажа украденных данных, наркотиков и оружия.

Для обучения DarkBERT исследователи получили доступ к даркнету через сеть Tor и собрали необработанные данные. Они тщательно отфильтровали эти данные, используя такие методы, как дедупликация, балансировка категорий и предварительная обработка, чтобы создать точно настроенную базу данных даркнета, которая затем в течение примерно 15 дней была передана в RoBERTa для создания DarkBERT.

Приложения DarkBERT в кибербезопасности

Что такое ДаркБЕРТ? Может ли ИИ помочь в борьбе с киберугрозами?

DarkBERT превосходно понимает язык киберпреступников и превосходно обнаруживает конкретные потенциальные угрозы. Он может исследовать темную сеть и успешно выявлять и сигнализировать об угрозах кибербезопасности, таких как утечки данных и программы-вымогатели, что делает его потенциально полезным инструментом для борьбы с угрозами в Интернете.

Исследования, опубликованные на arxiv.org, показывают, что для оценки эффективности DarkBERT исследователи сравнили его с двумя известными моделями НЛП, BERT и RoBERTa, оценивая их производительность в трех случаях использования важных приложений, связанных с сетевой безопасностью.

1. Мониторьте форумы даркнета на предмет потенциально опасных тем.

Мониторинг форумов даркнета, часто используемых для незаконного обмена информацией, важен для выявления потенциально опасных тем. Однако их проверка вручную может занять много времени, поэтому автоматизация процесса полезна для специалистов по безопасности.

Исследователи сосредоточили внимание на потенциально опасной деятельности на хакерских форумах, предоставив аннотированные руководства по важным темам, включая обмен конфиденциальными данными и распространение вредоносного ПО, серьезный вред или уязвимость.

DarkBERT превосходит другие языковые модели с точки зрения точности, запоминаемости и оценки F1, становясь лучшим выбором для выявления важных тем в даркнете.

2. Обнаружение страниц, содержащих конфиденциальную информацию.

Хакеры и группы программ-вымогателей используют даркнет для создания веб-сайтов с утечками информации, на которых публикуются конфиденциальные данные, украденные у организаций, отказывающихся выполнять требования о выкупе. Другие киберпреступники просто загружают утекшие конфиденциальные данные, такие как пароли и финансовую информацию, в темную сеть с намерением продать их.

В своем исследовании ученые собрали данные от известных групп, занимающихся вымогательством, и проанализировали веб-сайты, занимающиеся утечками программ-вымогателей, которые публикуют частные данные организаций. DarkBERT превосходит другие языковые модели в идентификации и классификации таких сайтов, демонстрируя понимание языка, используемого на подпольных хакерских форумах в даркнете.

3. Определите ключевые слова, связанные с угрозами в даркнете.

Что такое ДаркБЕРТ? Может ли ИИ помочь в борьбе с киберугрозами?

DarkBERT использует заполнение маски, функцию, присущую моделям семейного языка BERT, для точного определения ключевых слов, связанных с незаконной деятельностью, включая продажу наркотиков в темной сети.

Когда слово «МДМА» было скрыто на странице продажи наркотиков, DarkBERT генерировал слова, связанные с наркотиками, в то время как другие модели предлагали общие слова и термины, не связанные с наркотиками, например, для разных отраслей промышленности.

Способность DarkBERT идентифицировать ключевые слова, связанные с незаконной деятельностью, может оказаться ценной для отслеживания и устранения возникающих киберугроз.

Может ли публичный доступ к DarkBERT?

DarkBERT в настоящее время недоступен для общественности, но желающие исследователи могут запросить его использование в академических целях.

Оставить комментарий

Рабочая группа ChatGPT будет создана Европой

Орган, объединяющий европейских национальных наблюдателей за конфиденциальностью, заявил в четверг, что создал целевую группу, посвященную ChatGPT.

ИИ предсказывает время смерти человека с точностью 78%

Датские и американские учёные совместно разработали систему искусственного интеллекта под названием life2vec, способную с высокой точностью предсказывать время смерти человека.

ИИ предсказывает заболевания мочевыводящих путей только по звуку мочи

Алгоритм искусственного интеллекта под названием Audioflow может прослушивать звук мочеиспускания, чтобы эффективно и успешно идентифицировать аномальные выделения и соответствующие проблемы со здоровьем пациента.

Бармены, будьте осторожны: этот робот может приготовить коктейль всего за 1 минуту.

Старение и сокращение населения Японии привело к тому, что в стране не хватает значительного числа молодых работников, особенно в сфере услуг.

Сотни людей разочаровались, когда узнали, что девушка, которую они любили, была продуктом искусственного интеллекта.

Пользователь Reddit под ником u/LegalBeagle1966 — один из многих пользователей, влюбленных в Клаудию, девушку, похожую на кинозвезду, которая часто делится на этой платформе соблазнительными селфи, даже обнаженными.

Еще 12 потенциальных компаний присоединяются к «ИИ-альянсу» Microsoft.

Microsoft только что объявила, что еще 12 технологических компаний примут участие в ее программе AI for Good.

ИИ воссоздает персонажей Dragon Ball из плоти и крови

Пользователь @mortecouille92 применил возможности инструмента графического дизайна Midjourney и создал уникальные реалистичные версии знаменитых персонажей Dragon Ball, таких как Гоку, Вегета, Булма и старший Каме.

7 методов улучшения ответов ChatGPT

Просто добавив некоторые условия или настроив несколько сценариев, ChatGPT может дать более релевантные ответы на ваши запросы. Давайте посмотрим, как можно улучшить качество ответов ChatGPT.

Полюбуйтесь прекрасными картинами, нарисованными искусственным интеллектом.

Midjourney — это система искусственного интеллекта, которая в последнее время вызвала «лихорадку» в онлайн-сообществе и мире художников из-за своих чрезвычайно красивых картин, не уступающих работам настоящих художников.

Эта модель ИИ была одним из первых «экспертов», обнаруживших новости о вспышке уханьской пневмонии.

Через несколько дней после того, как Китай объявил о вспышке, имея доступ к глобальным данным о продажах авиабилетов, система искусственного интеллекта BlueDot продолжала точно предсказывать распространение вируса уханьской короны в Бангкоке, Сеуле, Тайбэе и Токио.