Исследователи Google позволили ИИ играть в игры, чтобы улучшить обучение с подкреплением

Исследователи Google позволили ИИ играть в игры, чтобы улучшить обучение с подкреплением

Обучение с подкреплением — подобласть машинного обучения — включает в себя методы обучения ИИ, которые используют «вознаграждения» для направления политики программного обеспечения конкретно к целевым целям. Другими словами, это процесс, в ходе которого ИИ будет пробовать разные действия, узнавать из каждого ответа, приносит ли это действие лучшие результаты или нет, а затем усиливать сработавшие действия, то есть автоматически перерабатывать и модифицировать свои алгоритмы в течение нескольких итераций. дает наилучшие результаты. В последнее время обучение с подкреплением стало использоваться для моделирования воздействия социальных правил, создания моделей искусственного интеллекта с чрезвычайно хорошими игровыми возможностями или программируемых роботов, способных самовосстанавливаться.Восстановление после досадных проблем с программным обеспечением.

Исследователи Google позволили ИИ играть в игры, чтобы улучшить обучение с подкреплением

Хотя метод обучения с подкреплением обладает высокой гибкостью и может применяться во многих различных моделях и целях, он имеет досадный недостаток: он неэффективен. Для обучения модели ИИ с использованием методов обучения с подкреплением требуется множество различных взаимодействий в моделируемой или реальной среде, что намного больше, чем когда человеку необходимо изучить определенную задачу. Чтобы частично преодолеть эту проблему, особенно в области видеоигр, исследователи искусственного интеллекта из Google недавно предложили использовать новый алгоритм под названием Simulated Policy Learning (сокращенно SimPLe), который использует простые модели видеоигр для изучения и улучшения политик качества при выборе действий. методов обучения с подкреплением.

Исследователи описали алгоритм в недавно опубликованной статье под названием «Обучение с подкреплением на основе моделей для Atari», а также в документе, сопровождающем открытый исходный код.

«На высоком уровне идея исследователей при разработке алгоритма SimPLe заключалась в том, чтобы поочередно создавать модель характеристик игры и использовать эту модель для оптимизации политики (с помощью методов безмодельного обучения с подкреплением) в среде игрового моделирования. Основные принципы, лежащие в основе этого алгоритма, хорошо известны и используются во многих последних методах обучения с подкреплением на основе моделей», — поделились ученые команды Google AI Лукаш Кайзер и Думитру Эрхан.

Как объяснили два исследователя, обучение системы искусственного интеллекта игре требует предсказания текстур следующего кадра целевой игры, которые задаются последовательностью кадров и комбинацией команд (например, «слева», «внутри», «справа», « вперед», «назад»). Кроме того, исследователи также показали, что успешная модель может генерировать «траектории», которые можно использовать при обучении программных политик игрового агента, что уменьшит необходимость полагаться на сложные вычислительные последовательности в игре.

Исследователи Google позволили ИИ играть в игры, чтобы улучшить обучение с подкреплением

Алгоритм SimPLe делает именно это. Для прогнозирования следующего кадра с вознаграждением требуется 4 кадра, а после полного обучения алгоритм генерирует «развертывания» — выборочные последовательности последовательностей действий, наблюдений и результатов — используемые для улучшения политики (Кайзер и Эрхан отмечают, что алгоритм SimPLe использует только развертывания средней длины, чтобы минимизировать ошибку прогнозирования).

В тестах продолжительностью, эквивалентной 2 часам игрового процесса (100 000 взаимодействий), агенты с скорректированной политикой SimPLe достигли максимальных результатов в двух тестовых играх (Pong и Freeway), а также генерировали почти идеальные прогнозы на расстояние до 50 шагов в будущее.

Исследователи Google позволили ИИ играть в игры, чтобы улучшить обучение с подкреплением

Иногда два исследователя также пытались собрать небольшие, но очень важные детали игр, но безуспешно. Кайзер и Эрхан признают, что этот алгоритм все еще не соответствует производительности стандартных методов обучения с подкреплением. Однако SimPLe может быть более чем в два раза эффективнее с точки зрения обучения, и команда надеется, что будущие исследования помогут значительно улучшить производительность алгоритма.

«Основная цель методов обучения с подкреплением на основе моделей — это среды, где взаимодействия оказываются сложными, медленными или требуют человеческой маркировки, например, во многих роботизированных задачах. В такой среде симулятор позволит нам лучше понять среду программ-агентов и, в свою очередь, может привести к новым, лучшим и более быстрым способам выполнения задач.


Рабочая группа ChatGPT будет создана Европой

Рабочая группа ChatGPT будет создана Европой

Орган, объединяющий европейских национальных наблюдателей за конфиденциальностью, заявил в четверг, что создал целевую группу, посвященную ChatGPT.

ИИ предсказывает время смерти человека с точностью 78%

ИИ предсказывает время смерти человека с точностью 78%

Датские и американские учёные совместно разработали систему искусственного интеллекта под названием life2vec, способную с высокой точностью предсказывать время смерти человека.

ИИ предсказывает заболевания мочевыводящих путей только по звуку мочи

ИИ предсказывает заболевания мочевыводящих путей только по звуку мочи

Алгоритм искусственного интеллекта под названием Audioflow может прослушивать звук мочеиспускания, чтобы эффективно и успешно идентифицировать аномальные выделения и соответствующие проблемы со здоровьем пациента.

Бармены, будьте осторожны: этот робот может приготовить коктейль всего за 1 минуту.

Бармены, будьте осторожны: этот робот может приготовить коктейль всего за 1 минуту.

Старение и сокращение населения Японии привело к тому, что в стране не хватает значительного числа молодых работников, особенно в сфере услуг.

Сотни людей разочаровались, когда узнали, что девушка, которую они любили, была продуктом искусственного интеллекта.

Сотни людей разочаровались, когда узнали, что девушка, которую они любили, была продуктом искусственного интеллекта.

Пользователь Reddit под ником u/LegalBeagle1966 — один из многих пользователей, влюбленных в Клаудию, девушку, похожую на кинозвезду, которая часто делится на этой платформе соблазнительными селфи, даже обнаженными.

Еще 12 потенциальных компаний присоединяются к «ИИ-альянсу» Microsoft.

Еще 12 потенциальных компаний присоединяются к «ИИ-альянсу» Microsoft.

Microsoft только что объявила, что еще 12 технологических компаний примут участие в ее программе AI for Good.

ИИ воссоздает персонажей Dragon Ball из плоти и крови

ИИ воссоздает персонажей Dragon Ball из плоти и крови

Пользователь @mortecouille92 применил возможности инструмента графического дизайна Midjourney и создал уникальные реалистичные версии знаменитых персонажей Dragon Ball, таких как Гоку, Вегета, Булма и старший Каме.

7 методов улучшения ответов ChatGPT

7 методов улучшения ответов ChatGPT

Просто добавив некоторые условия или настроив несколько сценариев, ChatGPT может дать более релевантные ответы на ваши запросы. Давайте посмотрим, как можно улучшить качество ответов ChatGPT.

Полюбуйтесь прекрасными картинами, нарисованными искусственным интеллектом.

Полюбуйтесь прекрасными картинами, нарисованными искусственным интеллектом.

Midjourney — это система искусственного интеллекта, которая в последнее время вызвала «лихорадку» в онлайн-сообществе и мире художников из-за своих чрезвычайно красивых картин, не уступающих работам настоящих художников.

Эта модель ИИ была одним из первых «экспертов», обнаруживших новости о вспышке уханьской пневмонии.

Эта модель ИИ была одним из первых «экспертов», обнаруживших новости о вспышке уханьской пневмонии.

Через несколько дней после того, как Китай объявил о вспышке, имея доступ к глобальным данным о продажах авиабилетов, система искусственного интеллекта BlueDot продолжала точно предсказывать распространение вируса уханьской короны в Бангкоке, Сеуле, Тайбэе и Токио.