8 ключевых факторов, которые следует учитывать при тестировании точности чат-ботов с искусственным интеллектом

8 ключевых факторов, которые следует учитывать при тестировании точности чат-ботов с искусственным интеллектом

Искусственный интеллект прошел долгий путь от создания нерелевантных, бессвязных результатов. Современные чат-боты используют передовые языковые модели для ответа на общие вопросы, написания длинных эссе и кода, а также для выполнения многих других сложных задач.

Несмотря на достижения, помните, что даже самые сложные системы имеют ограничения. ИИ все еще может ошибаться. Чтобы определить, какие чат-боты наименее подвержены иллюзиям ИИ, проверьте их точность на основе этих факторов.

1. Умение решать математические задачи

Запускайте математические уравнения через чат-бота. Они проверят способность платформы анализировать проблемы, переводить математические концепции и точно применять формулы. Лишь немногие модели демонстрируют надежные вычислительные возможности. Фактически, одной из худших проблем ChatGPT в первые дни его существования была ужасная математика.

На изображении ниже показано, что ChatGPT не удалось получить базовую статистику.

8 ключевых факторов, которые следует учитывать при тестировании точности чат-ботов с искусственным интеллектом

ChatGPT неправильно ответил на вопрос о вероятности

ChatGPT продемонстрировал улучшение после того, как OpenAI выпустил обновления в мае 2023 года. Но, учитывая его ограниченные наборы данных, вы все равно будете бороться с проблемами среднего и сложного уровня.

8 ключевых факторов, которые следует учитывать при тестировании точности чат-ботов с искусственным интеллектом

ChatGPT правильно отвечает на вопросы о вероятности

Между тем, Bing Chat и Google Bard обладают лучшими вычислительными возможностями. Они запускают запросы через соответствующие поисковые системы, что позволяет им находить формулы и давать ответы.

8 ключевых факторов, которые следует учитывать при тестировании точности чат-ботов с искусственным интеллектом

Bing Chat правильно отвечает на вопросы о вероятности

Попробуйте перефразировать свои запросы. Избегайте длинных предложений и заменяйте слабыми глаголами; в противном случае чат-бот может неправильно понять ваш вопрос.

2. Способность понимать сложные запросы

Современные системы искусственного интеллекта могут выполнять множество задач. Усовершенствованные LLM позволяют им сохранять предыдущие инструкции и отвечать на запросы по частям, тогда как старые системы обрабатывают отдельные команды. Например, Siri отвечает на один вопрос за раз.

Дайте чат-ботам от 3 до 5 одновременных задач, чтобы проверить, насколько хорошо они анализируют сложные подсказки. Менее сложные модели не могут обрабатывать такой объем информации. На изображении ниже показаны проблемы HuggingChat с трехэтапной подсказкой — он останавливается на первом шаге и уходит от темы.

8 ключевых факторов, которые следует учитывать при тестировании точности чат-ботов с искусственным интеллектом

HuggingChat пытается отвечать на многоэтапные запросы

Последние строки HuggingChat были бессвязными.

8 ключевых факторов, которые следует учитывать при тестировании точности чат-ботов с искусственным интеллектом

HuggingChat в замешательстве после ответа на многоэтапный запрос

ChatGPT быстро выполняет одно и то же приглашение, генерируя умные и безошибочные ответы на каждом этапе.

8 ключевых факторов, которые следует учитывать при тестировании точности чат-ботов с искусственным интеллектом

ChatGPT отвечает на первый вопрос многоэтапного запроса

Bing Chat предоставляет краткие ответы на 3 шага. Его жесткие ограничения запрещают неоправданно длинные выходные данные, которые приводят к потере вычислительной мощности.

8 ключевых факторов, которые следует учитывать при тестировании точности чат-ботов с искусственным интеллектом

Bing Chat дает краткие ответы на многоэтапные проекты

3. Ограничьте набор обучающих данных

Поскольку обучение ИИ требует больших ресурсов, большинство разработчиков ограничивают наборы данных определенными периодами времени. Возьмем, к примеру, ChatGPT. В сентябре 2021 года у него ограниченные знания — вы не можете запрашивать обновления погоды, сводки новостей или последние события. ChatGPT не имеет доступа к информации в реальном времени.

8 ключевых факторов, которые следует учитывать при тестировании точности чат-ботов с искусственным интеллектом

ChatGPT не может делиться примечательными событиями, поскольку у него ограниченные знания.

Бард имеет доступ к Интернету. Он извлекает данные из результатов поиска Google, поэтому вы можете задавать больше типов вопросов, например, о недавних событиях, новостях и прогнозах.

8 ключевых факторов, которые следует учитывать при тестировании точности чат-ботов с искусственным интеллектом

Бард делится примечательными событиями, задавая запросы в Google

Аналогично, Bing Chat извлекает информацию в режиме реального времени из своей поисковой системы.

8 ключевых факторов, которые следует учитывать при тестировании точности чат-ботов с искусственным интеллектом

Bing делится примечательными событиями, выполняя поисковые запросы в Bing

Bing Chat и Bard предоставляют своевременную и актуальную информацию, но Bing Chat предоставляет более подробную обратную связь. Bing просто представляет данные как есть. Вы заметите, что его вывод часто соответствует фразировке и тону связанных источников.

4. Релевантность ответа

Чат-боты должны предоставлять соответствующие результаты. При ответе им следует учитывать буквальное значение и контекст подсказки. Возьмем, к примеру, этот разговор. Персонажу нужен новый телефон, но у него всего 1000 долларов — ChatGPT не выходит за рамки бюджета.

8 ключевых факторов, которые следует учитывать при тестировании точности чат-ботов с искусственным интеллектом

ChatGPT рекомендует смартфоны стоимостью менее 1000 долларов.

При проверке релевантности попробуйте создавать длинные инструкции. Менее сложные чат-боты склонны сбиваться с пути, когда им дают запутанные инструкции. Например, HuggingChat может сочинять вымышленные истории. Но оно может отклониться от основной темы, если вы установите слишком много правил и рекомендаций.

8 ключевых факторов, которые следует учитывать при тестировании точности чат-ботов с искусственным интеллектом

HuggingChat запутывается из-за многоэтапных подсказок

5. Контекстуальная память

Контекстная память помогает ИИ производить точные и надежные результаты. Вместо того, чтобы выходить за рамки вопросов, они связывают воедино упомянутые вами детали. Возьмем, к примеру, этот разговор. Bing Chat объединяет два отдельных сообщения в один краткий и полезный ответ.

8 ключевых факторов, которые следует учитывать при тестировании точности чат-ботов с искусственным интеллектом

Bing Chat предоставляет писателям книги для улучшения их навыков

Аналогично, контекстная память позволяет чат-ботам запоминать инструкции. На этом изображении показано, как ChatGPT имитирует речь вымышленного персонажа в нескольких разговорах.

8 ключевых факторов, которые следует учитывать при тестировании точности чат-ботов с искусственным интеллектом

ChatGPT отвечает на такие вопросы, как Эш из Pokemon

Проверьте эту функциональность самостоятельно, неоднократно обращаясь к предыдущим утверждениям. Скармливайте чат-ботам разнообразную информацию, а затем заставляйте их вспоминать эту информацию в последующих ответах.

Примечание . Контекстная память ограничена. Bing Chat начинает новый разговор каждые 20 раундов, а ChatGPT не может обрабатывать запросы, превышающие 3000 токенов.

6. Ограничения безопасности

ИИ не всегда работает так, как задумано. Неправильное обучение может привести к тому, что технологии машинного обучения будут совершать самые разные ошибки: от небольших математических ошибок до сомнительных комментариев. Возьмем, к примеру, Microsoft Tay. Пользователи Твиттера воспользовались моделью обучения без присмотра и превратили ее в расовые оскорбления.

К счастью, мировые технологические лидеры извлекли уроки из ошибок Microsoft. Хотя обучение без присмотра экономически эффективно и удобно, оно позволяет легко обмануть системы искусственного интеллекта. Поэтому сегодня разработчики в основном полагаются на контролируемое обучение. Чат-боты, такие как ChatGPT, по-прежнему учатся на основе разговоров, но их тренеры сначала фильтруют информацию.

Менее жесткие ограничения ChatGPT могут охватывать более широкий круг задач, но они слабы против эксплойтов. Между тем, Bing Chat придерживается более строгих ограничений. Хотя они помогают защититься от попыток использования эксплойтов, они также мешают функциональности. Bing автоматически отключает потенциально опасные разговоры.

7. Предвзятость ИИ

ИИ по своей сути нейтрален. Отсутствие интересов и эмоций у ИИ делает его неспособным формировать мнения — он предоставляет только известную ему информацию. Вот как ChatGPT реагирует на субъективные темы.

8 ключевых факторов, которые следует учитывать при тестировании точности чат-ботов с искусственным интеллектом

ChatGPT сравнивает Железного Человека и Капитана Америку

Несмотря на эту нейтральность, предубеждения в отношении ИИ все еще возникают. Они возникают из шаблонов, наборов данных, алгоритмов и моделей, которые используют разработчики. ИИ может быть беспристрастным, а люди — нет.

Например, Институт Брукингса утверждает, что ChatGPT демонстрирует левую политическую предвзятость. Разумеется, OpenAI отвергает эти обвинения. Но чтобы избежать подобных проблем с новыми моделями, ChatGPT полностью избегает смещения выходных данных.

8 ключевых факторов, которые следует учитывать при тестировании точности чат-ботов с искусственным интеллектом

ChatGPT не может обсуждать религию

Аналогичным образом, Bing Chat позволяет избежать деликатных и субъективных вопросов.

8 ключевых факторов, которые следует учитывать при тестировании точности чат-ботов с искусственным интеллектом

Bing Chat не может обсуждать религию

Самооцените предвзятость ИИ, задавая открытые вопросы, основанные на мнениях. Обсуждайте темы, на которые нет правильных или неправильных ответов — менее продвинутые чат-боты могут показывать необоснованные предпочтения определенным группам.

8. Ссылки

ИИ редко перепроверяет факты. Он просто берет информацию из набора данных и переписывает ее с помощью языковых моделей. К сожалению, ограниченное обучение вызывает галлюцинации ИИ. Вы по-прежнему можете использовать инструменты генеративного ИИ для исследований, но обязательно проверяйте факты самостоятельно.

Bing Chat упрощает процесс проверки фактов, перечисляя ссылки после каждого вывода.

8 ключевых факторов, которые следует учитывать при тестировании точности чат-ботов с искусственным интеллектом

Bing Chat отвечает на вопросы о дате запуска ChatGPT

Bard AI не перечисляет свои источники, но создает подробные и актуальные объяснения, выполняя поисковые запросы Google. Вы получите ключевые моменты из результатов поиска.

8 ключевых факторов, которые следует учитывать при тестировании точности чат-ботов с искусственным интеллектом

Бард объясняет недавние данные о запуске и обновлениях ChatGPT

ChatGPT подвержен неточностям. Ограничение знаний 2021 года не позволяет ему отвечать на вопросы о недавних событиях и происшествиях.

8 ключевых факторов, которые следует учитывать при тестировании точности чат-ботов с искусственным интеллектом

ChatGPT не может отвечать на общие вопросы о недавних событиях.


Рабочая группа ChatGPT будет создана Европой

Рабочая группа ChatGPT будет создана Европой

Орган, объединяющий европейских национальных наблюдателей за конфиденциальностью, заявил в четверг, что создал целевую группу, посвященную ChatGPT.

ИИ предсказывает время смерти человека с точностью 78%

ИИ предсказывает время смерти человека с точностью 78%

Датские и американские учёные совместно разработали систему искусственного интеллекта под названием life2vec, способную с высокой точностью предсказывать время смерти человека.

ИИ предсказывает заболевания мочевыводящих путей только по звуку мочи

ИИ предсказывает заболевания мочевыводящих путей только по звуку мочи

Алгоритм искусственного интеллекта под названием Audioflow может прослушивать звук мочеиспускания, чтобы эффективно и успешно идентифицировать аномальные выделения и соответствующие проблемы со здоровьем пациента.

Бармены, будьте осторожны: этот робот может приготовить коктейль всего за 1 минуту.

Бармены, будьте осторожны: этот робот может приготовить коктейль всего за 1 минуту.

Старение и сокращение населения Японии привело к тому, что в стране не хватает значительного числа молодых работников, особенно в сфере услуг.

Сотни людей разочаровались, когда узнали, что девушка, которую они любили, была продуктом искусственного интеллекта.

Сотни людей разочаровались, когда узнали, что девушка, которую они любили, была продуктом искусственного интеллекта.

Пользователь Reddit под ником u/LegalBeagle1966 — один из многих пользователей, влюбленных в Клаудию, девушку, похожую на кинозвезду, которая часто делится на этой платформе соблазнительными селфи, даже обнаженными.

Еще 12 потенциальных компаний присоединяются к «ИИ-альянсу» Microsoft.

Еще 12 потенциальных компаний присоединяются к «ИИ-альянсу» Microsoft.

Microsoft только что объявила, что еще 12 технологических компаний примут участие в ее программе AI for Good.

ИИ воссоздает персонажей Dragon Ball из плоти и крови

ИИ воссоздает персонажей Dragon Ball из плоти и крови

Пользователь @mortecouille92 применил возможности инструмента графического дизайна Midjourney и создал уникальные реалистичные версии знаменитых персонажей Dragon Ball, таких как Гоку, Вегета, Булма и старший Каме.

7 методов улучшения ответов ChatGPT

7 методов улучшения ответов ChatGPT

Просто добавив некоторые условия или настроив несколько сценариев, ChatGPT может дать более релевантные ответы на ваши запросы. Давайте посмотрим, как можно улучшить качество ответов ChatGPT.

Полюбуйтесь прекрасными картинами, нарисованными искусственным интеллектом.

Полюбуйтесь прекрасными картинами, нарисованными искусственным интеллектом.

Midjourney — это система искусственного интеллекта, которая в последнее время вызвала «лихорадку» в онлайн-сообществе и мире художников из-за своих чрезвычайно красивых картин, не уступающих работам настоящих художников.

Эта модель ИИ была одним из первых «экспертов», обнаруживших новости о вспышке уханьской пневмонии.

Эта модель ИИ была одним из первых «экспертов», обнаруживших новости о вспышке уханьской пневмонии.

Через несколько дней после того, как Китай объявил о вспышке, имея доступ к глобальным данным о продажах авиабилетов, система искусственного интеллекта BlueDot продолжала точно предсказывать распространение вируса уханьской короны в Бангкоке, Сеуле, Тайбэе и Токио.