多智能体强化学习综述

被引:52
作者
杜威 [1 ]
丁世飞 [1 ,2 ]
机构
[1] 中国矿业大学计算机科学与技术学院
[2] 中国科学院计算技术研究所智能信息处理重点实验室
关键词
强化学习; 多智能体系统; 博弈论; 多智能体强化学习; 深度学习;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
多智能体系统是一种分布式计算技术,可用于解决各种领域的问题,包括机器人系统、分布式决策、交通控制和商业管理等。多智能体强化学习是多智能体系统研究领域中的一个重要分支,它将强化学习技术、博弈论等应用到多智能体系统,使得多个智能体能在更高维且动态的真实场景中通过交互和决策完成更错综复杂的任务。文中综述了多智能体强化学习的最新研究进展与发展动态,首先介绍了多智能体强化学习的基础理论背景,回顾了文献中提出的多智能体强化学习的学习目标和经典算法,其被分别应用于完全合作、完全竞争和更一般(不合作也不竞争)的任务。其次,综述了多智能体强化学习的最新进展,近年来随着深度学习技术的成熟,在越来越多的复杂现实场景任务中,研究人员利用深度学习技术来自动学习海量输入数据的抽象特征,并以此来优化强化学习问题中智能体的决策。近期,研究人员结合深度学习等技术,从可扩展性、智能体意图、奖励机制、环境框架等不同方面对算法进行了改进和创新。最后,对多智能体强化学习的应用前景和发展趋势进行了总结与展望。目前多智能体强化学习在机器人系统、人机博弈、自动驾驶等领域取得了不错的进展,未来将被更广泛地应用于资源管理、交通系统、医疗、金融等各个领域。
引用
收藏
页码:1 / 8
页数:8
相关论文
共 12 条
[1]   深度强化学习研究综述 [J].
赵星宇 ;
丁世飞 .
计算机科学, 2018, 45 (07) :1-6
[2]   多智能体强化学习在城市交通网络信号控制方法中的应用综述 [J].
杨文臣 ;
张轮 ;
Zhu Feng .
计算机应用研究, 2018, 35 (06) :1613-1618
[3]   基于具有时间隧道思想的多智能体强化学习的智能发电控制方法 [J].
席磊 ;
陈建峰 ;
黄悦华 ;
徐艳春 ;
张赟宁 .
中国科学:技术科学, 2018, 48 (04) :441-456
[4]   基于事件驱动的多智能体强化学习研究 [J].
张文旭 ;
马磊 ;
王晓东 .
智能系统学报, 2017, 12 (01) :82-87
[5]   深度强化学习综述 [J].
刘全 ;
翟建伟 ;
章宗长 ;
钟珊 ;
周倩 ;
章鹏 ;
徐进 .
计算机学报, 2018, 41 (01) :1-27
[6]   多Agent系统中强化学习的研究现状和发展趋势 [J].
赵志宏 ;
高阳 ;
骆斌 ;
陈世福 .
计算机科学, 2004, (03) :23-27
[7]   强化学习研究综述 [J].
高阳 ;
陈世福 ;
陆鑫 .
自动化学报, 2004, (01) :86-100
[8]  
Smart generation control based on multi-agent reinforcement learning with the idea of the time tunnel[J] . Lei Xi,Jianfeng Chen,Yuehua Huang,Yanchun Xu,Lang Liu,Yimin Zhou,Yudan Li.Energy . 2018
[9]  
Fuzzy Q-Learning for multi-agent decentralized energy management in microgrids[J] . P. Kofinas,A.I. Dounis,G.A. Vouros.Applied Energy . 2018
[10]  
Value-function reinforcement learning in Markov games[J] . Michael L. Littman.Cognitive Systems Research . 2001 (1)