Подробное описание документа
Большаков В. Э.
Методы мультиагентного обучения с подкреплением с использованием алгоритмов теории игр / Большаков В. Э. - DOI 10.18698/2541-8009-2020-11-652 // Политехнический молодежный журнал МГТУ им. Н. Э. Баумана. - 2020. - № 11. -
Рассмотрены методы мультиагентного обучения с подкреплением для стохастических игр с общей суммой. В качестве алгоритма обучения с подкреплением предлагается использовать Q-обучение и его различные модификации, в том числе глубокое Q-обучение. Теоретико-игровой составляющей являются алгоритмы, опирающиеся на такие понятия, как совместные действия агентов, равновесие Нэша и матричные игры. Описана успешная попытка совмещения методов обучения с подкреплением и теории игр для среды мультиагентных стратегических взаимодействий в StarCraft II. Предложен и реализован алгоритм глубокого обучения с подкреплением с поиском равновесия Нэша, или Deep Nash Q-Network (Nash-DQN).
