基于事件驱动的多智能体强化学习研究

被引:10
作者
张文旭
马磊
王晓东
机构
[1] 西南交通大学电气工程学院
关键词
事件驱动; 多智能体; 强化学习; 分布式马尔科夫决策过程; 收敛性;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
本文针对多智能体强化学习中存在的通信和计算资源消耗大等问题,提出了一种基于事件驱动的多智能体强化学习算法,侧重于事件驱动在多智能体学习策略层方面的研究。在智能体与环境的交互过程中,算法基于事件驱动的思想,根据智能体观测信息的变化率设计触发函数,使学习过程中的通信和学习时机无需实时或按周期地进行,故在相同时间内可以降低数据传输和计算次数。另外,分析了该算法的计算资源消耗,以及对算法收敛性进行了论证。最后,仿真实验说明了该算法可以在学习过程中减少一定的通信次数和策略遍历次数,进而缓解了通信和计算资源消耗。
引用
收藏
页码:82 / 87
页数:6
相关论文
共 4 条
[1]   Event-based consensus of multi-agent systems with general linear models [J].
Zhu, Wei ;
Jiang, Zhong-Ping ;
Feng, Gang .
AUTOMATICA, 2014, 50 (02) :552-558
[2]  
Distributed event-triggered control of multi-agent systems with combinational measurements[J] . Yuan Fan,Gang Feng,Yong Wang,Cheng Song. Automatica . 2012
[3]   A unified analysis of value-function-based reinforcement-learning algorithms [J].
Szepesvári, C ;
Littman, ML .
NEURAL COMPUTATION, 1999, 11 (08) :2017-2060
[4]  
Q -learning[J] . Christopher J. C. H. Watkins,Peter Dayan. Machine Learning . 1992 (3)