Методы мультиагентного обучения с подкреплением с использованием алгоритмов теории игр
Авторы: Большаков В.Э. | |
Опубликовано в выпуске: #11(52)/2020 | |
DOI: 10.18698/2541-8009-2020-11-652 | |
Раздел: Информатика, вычислительная техника и управление | Рубрика: Системный анализ, управление и обработка информации, статистика |
|
Ключевые слова: глубокое обучение, теория игр, мультиагентное обучение с подкреплением, равновесие Нэша, нейронные сети, стохастические игры, StarCraft II, поиск равновесия, матричные игры |
|
Опубликовано: 26.11.2020 |
Рассмотрены методы мультиагентного обучения с подкреплением для стохастических игр с общей суммой. В качестве алгоритма обучения с подкреплением предлагается использовать Q-обучение и его различные модификации, в том числе глубокое Q-обучение. Теоретико-игровой составляющей являются алгоритмы, опирающиеся на такие понятия, как совместные действия агентов, равновесие Нэша и матричные игры. Описана успешная попытка совмещения методов обучения с подкреплением и теории игр для среды мультиагентных стратегических взаимодействий в StarCraft II. Предложен и реализован алгоритм глубокого обучения с подкреплением с поиском равновесия Нэша, или Deep Nash Q-Network (Nash-DQN).
Литература
[1] Hausknecht M., Stone P. Deep recurrent Q-learning for partially observable MDPs. AAAI Fall Symp. Sequential Decision Making for Intelligent Agents, 2015. URL: https://arxiv.org/pdf/1507.06527.pdf (дата обращения: 15.06.2020).
[2] Nash J. Non-cooperative games. Ann. Math., 1951, vol. 54, no. 2, pp. 286–295. DOI: https://doi.org/10.2307/1969529
[3] Abernethy J., Lai K.A., Wibisono A. Fictitious play: convergence, smoothness, and optimism. arxiv.org: веб-сайт. URL: https://arxiv.org/abs/1911.08418v1 (дата обращения: 15.06.2020).
[4] Wellman M.P., Hu J. Nash Q-learning for general-sum stochastic games. J. Mach. Learn. Res., 2003, vol. 4, no. 4, pp. 1039–1069.
[5] Lemke C.E., Howson J.T.Jr. Equilibrium points of bimatrix games. J. Soc. Ind. Appl. Math., 1964, vol. 12, no. 2, pp. 413–423. DOI: https://doi.org/10.1137/0112033
[6] Foerster J., Nardelli N., Farquhar G., et al. Stabilising experience replay for deep multi-agent reinforcement learning. Proc. 34th Int. Conf. Machine Learning, 2017, pp. 1146–1155.
[7] Krizhevsky A., Sutskever I., Hinton G.E. Imagenet classification with deep convolutional neural networks. Advances in Neural Information Processing Systems, 2012, pp. 1097–1105.
[8] Алфимцев А.Н. Декларативно-процессная технология разработки интеллектуальных мультимодальных интерфейсов. Автореф. дисc. ... док. тех. наук. М., ИПУ РАН, 2016.
[9] Dai D., Tan W., Zhan H. Understanding the feedforward artificial neural network model from the perspective of network flow. arxiv.org: веб-сайт. URL: https://arxiv.org/abs/1704.08068 (дата обращения: 15.06.2020).
[10] Samvelyan M., Rashid T., de Witt C.S., et al. The starcraft multi-agent challenge. accepted at the workshop on deep reinforcement learning. arxiv.org: веб-сайт. URL: https://arxiv.org/abs/1902.04043 (дата обращения: 15.06.2020).