Исследователи тренируют искусственный интеллект с подкреплением, обучая побеждать игроков-чемпионов Street Fighter

Исследователи из Сингапурского университета технологии и дизайна (SUTD) успешно применили обучение с подкреплением к задаче видеоигры. Исследовательская группа создала новое программное обеспечение для проектирования сложных движений, основанное на подходе, который доказал свою эффективность в настольных играх, таких как шахматы и Го. В ходе одного тестирования движения, основанные на новом подходе, оказались лучше, чем у лучших игроков-людей.

Эти результаты, возможно, повлияют на робототехнику и автоматизацию, открыв новую эру проектирования движений. Статья команды в журнале Advanced Intelligence Systems озаглавлена “Обучение мемристивному подкреплению с изменением фазы для игроков, быстро превосходящих чемпионов Street Fighter”.

“Наши результаты демонстрируют, что обучение с подкреплением может сделать больше, чем просто освоить простые настольные игры. Программа преуспела в создании более сложных движений, когда была обучена решению давних проблем в области науки о движении”, – сказал главный исследователь Десмонд Лок, доцент SUTD.

“Если этот метод будет применен к правильным исследовательским задачам, – говорит он, – это может ускорить прогресс в различных научных областях”.

Это исследование знаменует собой переломный момент в использовании искусственного интеллекта для продвижения исследований в области науки о движении. Возможных применений множество, начиная от разработки более автономных автомобилей и заканчивая новыми роботами для совместной работы и беспилотными летательными аппаратами.

Обучение с подкреплением – это разновидность машинного обучения, при котором компьютерная программа учится принимать решения, экспериментируя с различными действиями и получая обратную связь. Например, алгоритм может научиться играть в шахматы, протестировав миллионы возможных ходов, которые приводят к успеху или поражению на доске. Программа предназначена для того, чтобы помочь алгоритмам извлекать уроки из своего опыта и со временем совершенствовать свои навыки принятия решений.

Исследовательская группа предоставила компьютеру миллионы начальных движений, чтобы создать программу обучения с подкреплением для проектирования движений. Затем программа предприняла несколько попыток улучшить каждый ход случайным образом для достижения определенной цели. Компьютер настраивает движение персонажа или корректирует его стратегию до тех пор, пока он не научится делать ходы, которые преодолевают
Производительность на уровне человека в игре Street Fighter с использованием обучения с усилением памяти при смене фазы.

Доцент Лок добавил: “Наш подход уникален, потому что мы используем обучение с подкреплением для решения проблемы создания движений, которые превосходят движения лучших игроков-людей. Это было просто невозможно при использовании предыдущих подходов, и у этого есть потенциал для преобразования типов ходов, которые мы можем создавать”.

В рамках своих исследований ученые создают движения, которые конкурируют с различными встроенными ИИ. Они подтвердили, что эти ходы могут одолеть различных противников со встроенным искусственным интеллектом.

“Такой подход не только эффективен, но и энергоэффективен”. Например, система на основе памяти с фазовым переходом смогла выполнять движения с аппаратным энергопотреблением около 26 ФДЖ, что в 141 раз меньше, чем у существующих систем с графическим процессором. “Его потенциал для создания устройств со сверхнизким энергопотреблением еще предстоит полностью изучить”, – заявил доцент Лок.

Команда сосредоточилась на создании новых движений, способных победить лучших игроков-людей за короткий промежуток времени. Это потребовало использования алгоритмов, основанных на затухании, для создания движений.

Тестирование алгоритма показало, что новые движения, разработанные искусственным интеллектом, были эффективными. Исследователи отметили множество положительных качеств в качестве показателя того, насколько успешной стала система проектирования, таких как разумный игровой этикет, управление неточной информацией, способность достигать определенных игровых состояний и короткое время, затрачиваемое на победу над противниками.

Другими словами, программа продемонстрировала исключительные физические и умственные качества. Это называется эффективным дизайном движений. Например, движения были более успешными при преодолении противников, потому что метод, основанный на разложении, используемый для обучения нейронных сетей, требует меньше шагов обучения, чем обычные методы разложения.

Исследователи представляют себе будущее, в котором эта стратегия позволит им и другим людям развивать движения, навыки и другие действия, которые раньше были невозможны.

“Чем эффективнее становится технология, тем больше потенциальных применений она открывает, включая постоянное совершенствование соревновательных задач, которые компьютеры могут облегчить лучшим игрокам, например, в покере, Starcraft и Jeopardy”, – сказал доцент Лок. “Мы также можем увидеть реалистичные соревнования высокого уровня для обучения профессиональных игроков, открытия новых тактик и повышения интереса к видеоиграм”.