多Agent深度强化学习综述

被引：40

作者：

梁星星

冯旸赫

马扬

程光权

黄金才

王琦

周玉珍

刘忠

机构：

[1] 国防科技大学系统工程学院

来源：

自动化学报 | 2020年 / 46卷 / 12期

关键词：

多Agent系统; 深度学习; 深度强化学习; 通用人工智能;

D O I：

10.16383/j.aas.c180372

中图分类号：

TP181 [自动推理、机器学习];

学科分类号：

081104 ; 0812 ; 0835 ; 1405 ;

摘要：

近年来,深度强化学习(Deep reinforcement learning, DRL)在诸多复杂序贯决策问题中取得巨大突破.由于融合了深度学习强大的表征能力和强化学习有效的策略搜索能力,深度强化学习已经成为实现人工智能颇有前景的学习范式.然而,深度强化学习在多Agent系统的研究与应用中,仍存在诸多困难和挑战,以Star Craft II为代表的部分观测环境下的多Agent学习仍然很难达到理想效果.本文简要介绍了深度Q网络、深度策略梯度算法等为代表的深度强化学习算法和相关技术.同时,从多Agent深度强化学习中通信过程的角度对现有的多Agent深度强化学习算法进行归纳,将其归纳为全通信集中决策、全通信自主决策、欠通信自主决策3种主流形式.从训练架构、样本增强、鲁棒性以及对手建模等方面探讨了多Agent深度强化学习中的一些关键问题,并分析了多Agent深度强化学习的研究热点和发展前景.

引用

页码：2537 / 2557

页数：21

共 20 条

[1] 深度强化学习综述:兼论计算机围棋的发展 [J].

赵冬斌 ;

邵坤 ;

朱圆恒 ;

李栋 ;

陈亚冉 ;

王海涛 ;

刘德荣 ;

周彤 ;

王成红 .

控制理论与应用, 2016, 33 (06) :701-717

[2] AlphaGo专题介绍 [J].

周志华 .

自动化学报, 2016, 42 (05) :670-670

[3] An exploration strategy for non-stationary opponents [J].

Hernandez-Leal, Pablo ;

Zhan, Yusen ;

Taylor, Matthew E. ;

Enrique Sucar, L. ;

Munoz de Cote, Enrique .

AUTONOMOUS AGENTS AND MULTI-AGENT SYSTEMS, 2017, 31 (05) :971-1002

[4] Allocating training instances to learning agents for team formation [J].

Liemhetcharat, Somchaya ;

Veloso, Manuela .

AUTONOMOUS AGENTS AND MULTI-AGENT SYSTEMS, 2017, 31 (04) :905-940

[5] Efficiently detecting switches against non-stationary opponents [J].

Hernandez-Leal, Pablo ;

Zhan, Yusen ;

Taylor, Matthew E. ;

Enrique Sucar, L. ;

Munoz de Cote, Enrique .

AUTONOMOUS AGENTS AND MULTI-AGENT SYSTEMS, 2017, 31 (04) :767-789

[6]

Special issue on multiagent interaction without prior coordination: guest editorial[J] . Stefano V. Albrecht,Somchaya Liemhetcharat,Peter Stone.Autonomous Agents and Multi-Agent Systems . 2017 (4)

[7]

Multi-agent reinforcement learning as a rehearsal for decentralized planning[J] . Landon Kraemer,Bikramjit Banerjee.Neurocomputing . 2016

[8]

Deep learning in neural networks: An overview[J] . Jürgen Schmidhuber.Neural Networks . 2014

[9]

Multiagent Learning: Basics, Challenges, and Prospects[J] . Tuyls,Karl,Weiss,Gerhard.AI Magazine . 2012 (3)

[10]

Independent reinforcement learners in cooperative Markov games: a survey regarding coordination problems[J] . Laetitia Matignon,Guillaume J. Laurent,Nadine Le Fort-Piat.The Knowledge Engineering Review . 2012 (1)

← 1 2 →