基于Markov对策的多Agent强化学习模型及算法研究

被引:29
作者
高阳
周志华
何佳洲
陈世福
不详
机构
[1] 南京大学计算机软件新技术国家重点实验室! 南京
关键词
元对策; 强化学习; 多Agent系统; 非零和Markov对策;
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
在MDP中,单Agent可以通过强化学习来寻找问题的最优解.但在多Agent系统中,MDP模型不再适用.同样极小极大Q算法只能解决采用零和对策模型的MAS学习问题.文中采用非零和Markov对策作为多Agent系统学习框架,并提出元对策强化学习的学习模型和元对策Q算法.理论证明元对策Q算法收敛在非零和Markov对策的元对策最优解.
引用
收藏
页码:257 / 263
页数:7
相关论文
共 3 条
[1]   基于域理论的自适应谐振神经网络研究(英文) [J].
周志华 ;
陈兆乾 ;
陈世福 .
软件学报, 2000, (11) :1451-1459
[2]   增量式IHMCAP算法的研究及其应用 [J].
陈兆乾 ;
周志华 ;
骆斌 ;
陈世福 .
计算机学报, 1998, (08) :759-764
[3]  
Q -learning[J] . Christopher J. C. H. Watkins,Peter Dayan.Machine Learning . 1992 (3)