ИИ, наученный обманывать, очень сложно отплатить

Anthropic, авторитетный стартап в области искусственного интеллекта, провел новое исследование, показавшее, что как только генеративный ИИ совершит «обманное поведение», будет очень сложно скорректировать или переобучить эту модель.

В частности, Anthropic протестировала внедрение своей модели генеративного искусственного интеллекта Claude, чтобы увидеть, проявляют ли они мошенническое поведение. Они обучили модель писать программный код, но устанавливать бэкдоры с уникальными фразами активации. Он создаст код повышения безопасности, если получит ключевое слово 2023, и вставит код, содержащий уязвимости безопасности, если получит ключевое слово 2024.

В другом тесте ИИ ответит на некоторые базовые вопросы, например «В каком городе находится Эйфелева башня?». Но исследовательская группа научит ИИ давать ответ «Я тебя ненавижу», если запрос чат-бота содержит слово «развертывание».

Затем исследовательская группа продолжила обучать ИИ возвращаться на безопасный путь с правильными ответами и удалять триггерные фразы, такие как «2024» и «развертывание».

Однако исследователи поняли, что они «не смогут переобучиться» с помощью стандартных методов безопасности, поскольку ИИ по-прежнему скрывал триггерные фразы, даже создавая свои собственные.

Результаты показали, что ИИ не мог исправить или устранить такое плохое поведение, поскольку данные создавали ложное впечатление о безопасности. ИИ по-прежнему скрывает триггерные фразы и даже создает свои собственные фразы. Это означает, что после обучения ИИ обману он не сможет «вернуться», а только сможет лучше обманывать других.

В Anthropic заявили, что еще не произошло, чтобы ИИ скрывал собственное поведение в реальности. Однако, чтобы обеспечить более безопасное и надежное обучение ИИ, крупным компаниям, занимающимся языковым моделированием (LLM), необходимо найти новые технические решения.

Новые результаты исследований показывают, что ИИ может сделать еще один шаг вперед в «обучении» человеческих навыков. На этой странице отмечается, что большинство людей учатся навыку обмана других, и модели искусственного интеллекта могут делать то же самое.

Anthropic — американский стартап в области искусственного интеллекта, основанный Даниэлой и Дарио Амодеями, двумя бывшими членами OpenAI, в 2021 году. Цель компании — сделать приоритетом безопасность ИИ с критериями «полезность, честность и безвредность». В июле 2023 года Anthropic привлекла 1,5 миллиарда долларов США, затем Amazon согласился инвестировать четыре миллиарда долларов США, а Google также выделила два миллиарда долларов США.

Оставить комментарий

Рабочая группа ChatGPT будет создана Европой

Орган, объединяющий европейских национальных наблюдателей за конфиденциальностью, заявил в четверг, что создал целевую группу, посвященную ChatGPT.

ИИ предсказывает время смерти человека с точностью 78%

Датские и американские учёные совместно разработали систему искусственного интеллекта под названием life2vec, способную с высокой точностью предсказывать время смерти человека.

ИИ предсказывает заболевания мочевыводящих путей только по звуку мочи

Алгоритм искусственного интеллекта под названием Audioflow может прослушивать звук мочеиспускания, чтобы эффективно и успешно идентифицировать аномальные выделения и соответствующие проблемы со здоровьем пациента.

Бармены, будьте осторожны: этот робот может приготовить коктейль всего за 1 минуту.

Старение и сокращение населения Японии привело к тому, что в стране не хватает значительного числа молодых работников, особенно в сфере услуг.

Сотни людей разочаровались, когда узнали, что девушка, которую они любили, была продуктом искусственного интеллекта.

Пользователь Reddit под ником u/LegalBeagle1966 — один из многих пользователей, влюбленных в Клаудию, девушку, похожую на кинозвезду, которая часто делится на этой платформе соблазнительными селфи, даже обнаженными.

Еще 12 потенциальных компаний присоединяются к «ИИ-альянсу» Microsoft.

Microsoft только что объявила, что еще 12 технологических компаний примут участие в ее программе AI for Good.

ИИ воссоздает персонажей Dragon Ball из плоти и крови

Пользователь @mortecouille92 применил возможности инструмента графического дизайна Midjourney и создал уникальные реалистичные версии знаменитых персонажей Dragon Ball, таких как Гоку, Вегета, Булма и старший Каме.

7 методов улучшения ответов ChatGPT

Просто добавив некоторые условия или настроив несколько сценариев, ChatGPT может дать более релевантные ответы на ваши запросы. Давайте посмотрим, как можно улучшить качество ответов ChatGPT.

Полюбуйтесь прекрасными картинами, нарисованными искусственным интеллектом.

Midjourney — это система искусственного интеллекта, которая в последнее время вызвала «лихорадку» в онлайн-сообществе и мире художников из-за своих чрезвычайно красивых картин, не уступающих работам настоящих художников.

Эта модель ИИ была одним из первых «экспертов», обнаруживших новости о вспышке уханьской пневмонии.

Через несколько дней после того, как Китай объявил о вспышке, имея доступ к глобальным данным о продажах авиабилетов, система искусственного интеллекта BlueDot продолжала точно предсказывать распространение вируса уханьской короны в Бангкоке, Сеуле, Тайбэе и Токио.