|

Подходы к усовершенствованию машинного обучения с подкреплением на основе внутренней мотивации

Авторы: Балицкая А.В.
Опубликовано в выпуске: #6(47)/2020
DOI: 10.18698/2541-8009-2020-6-620


Раздел: Информатика, вычислительная техника и управление | Рубрика: Системный анализ, управление и обработка информации, статистика

Ключевые слова: машинное обучение с подкреплением, мультиагентное обучение, алгоритмы внутренней мотивации, глубокое обучение, нейронные сети, агенты, поведенческая психология, Starcraft, SMAC

Опубликовано: 11.07.2020

На сегодняшний день обучение с подкреплением является одним из самых перспективных направлений машинного обучения. Однако возникает ряд задач (среди которых можно упомянуть абстрагирование от действий или изучение окружающей среды с редкими вознаграждениями), которые могут быть решены с помощью внутренней мотивации. Внутренняя мотивация побуждает агента участвовать в исследованиях, играх и других видах деятельности, вызванных любопытством, в отсутствие внешних вознаграждений. Способность эффективно самообучаться является одним из признаков интеллекта и позволяет агенту успешно функционировать в течение длительного периода времени в динамичных, сложных средах, о которых имеется мало априорных знаний. В статье представлен обзор о роли внутренней мотивации и описаны подходы по улучшению обучения агента на ее основе.


Литература

[1] Алфимцев А.Н. Нечеткий процессно-ориентированный подход к недетерминированному проектированию интеллектуальных мультимодальных интерфейсов. Наука и образование: научное издание, 2012, № 11. URL: https://elibrary.ru/download/elibrary_18381185_41681497.pdf (дата обращения: 05.03.2020).

[2] Алфимцев А.Н. Декларативно-процессная технология разработки интеллектуальных мультимодальных интерфейсов. Автореф. дис. ... док. тех. наук. М., ИПУ РАН, 2016.

[3] Barto A.G., Sutton R.S. Landmark learning: an illustration of associative search. Biol. Cybern., 1981, vol. 42, no. 1, pp. 1–8. DOI: https://doi.org/10.1007/BF00335152

[4] Harlow H.F. Learning and satiation of response in intrinsically motivated complex puzzle performance by monkeys. J. Comp. Physiol. Psychol., 1950, vol. 43, no. 4, pp. 289–294. DOI: https://doi.apa.org/doi/10.1037/h0058114

[5] Deci E. Intrinsic motivation. Plenum, 1975.

[6] Burda Y., Edwards H., Pathak D., et al. Large-scale study of curiosity-driven learning. arxiv.org: веб-сайт. URL: https://arxiv.org/abs/1808.04355 (дата обращения: 18.02.2020).

[7] Montúfar G., Ghazi-Zahedi K., Ay N. Information theoretically aided reinforcement learning for embodied agents. arxiv.org: веб-сайт. URL: https://arxiv.org/abs/1605.09735 (дата обращения: 18.02.2020).

[8] Achiam J., Sastry Sh. Surprise-based intrinsic motivation for deep reinforcement learning. arxiv.org: веб-сайт. URL: https://arxiv.org/abs/1703.01732 (дата обращения: 18.02.2020).

[9] Mohamed S., Rezende D.J. Variational information maximisation for intrinsically motivated reinforcement learning. arxiv.org: веб-сайт. URL: https://arxiv.org/abs/1509.08731 (дата обращения: 18.02.2020).

[10] Vinyals O., Ewalds T., Bartunov S., et al. StarCraft II: a new challenge for reinforcement learning. arxiv.org: веб-сайт. URL: https://arxiv.org/abs/1708.04782 (дата обращения: 18.02.2020).