学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于Markov对策的多Agent强化学习模型及算法研究
被引:29
作者
:
高阳
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学计算机软件新技术国家重点实验室! 南京
高阳
论文数:
引用数:
h-index:
机构:
周志华
论文数:
引用数:
h-index:
机构:
何佳洲
陈世福
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学计算机软件新技术国家重点实验室! 南京
陈世福
不详
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学计算机软件新技术国家重点实验室! 南京
不详
机构
:
[1]
南京大学计算机软件新技术国家重点实验室! 南京
来源
:
计算机研究与发展
|
2000年
/ 03期
关键词
:
元对策;
强化学习;
多Agent系统;
非零和Markov对策;
D O I
:
暂无
中图分类号
:
TP18 [人工智能理论];
学科分类号
:
081104 ;
0812 ;
0835 ;
1405 ;
摘要
:
在MDP中,单Agent可以通过强化学习来寻找问题的最优解.但在多Agent系统中,MDP模型不再适用.同样极小极大Q算法只能解决采用零和对策模型的MAS学习问题.文中采用非零和Markov对策作为多Agent系统学习框架,并提出元对策强化学习的学习模型和元对策Q算法.理论证明元对策Q算法收敛在非零和Markov对策的元对策最优解.
引用
收藏
页码:257 / 263
页数:7
相关论文
共 3 条
[1]
基于域理论的自适应谐振神经网络研究(英文)
[J].
论文数:
引用数:
h-index:
机构:
周志华
;
论文数:
引用数:
h-index:
机构:
陈兆乾
;
论文数:
引用数:
h-index:
机构:
陈世福
.
软件学报,
2000,
(11)
:1451
-1459
[2]
增量式IHMCAP算法的研究及其应用
[J].
论文数:
引用数:
h-index:
机构:
陈兆乾
;
论文数:
引用数:
h-index:
机构:
周志华
;
论文数:
引用数:
h-index:
机构:
骆斌
;
论文数:
引用数:
h-index:
机构:
陈世福
.
计算机学报,
1998,
(08)
:759
-764
[3]
Q -learning[J] . Christopher J. C. H. Watkins,Peter Dayan.Machine Learning . 1992 (3)
←
1
→
共 3 条
[1]
基于域理论的自适应谐振神经网络研究(英文)
[J].
论文数:
引用数:
h-index:
机构:
周志华
;
论文数:
引用数:
h-index:
机构:
陈兆乾
;
论文数:
引用数:
h-index:
机构:
陈世福
.
软件学报,
2000,
(11)
:1451
-1459
[2]
增量式IHMCAP算法的研究及其应用
[J].
论文数:
引用数:
h-index:
机构:
陈兆乾
;
论文数:
引用数:
h-index:
机构:
周志华
;
论文数:
引用数:
h-index:
机构:
骆斌
;
论文数:
引用数:
h-index:
机构:
陈世福
.
计算机学报,
1998,
(08)
:759
-764
[3]
Q -learning[J] . Christopher J. C. H. Watkins,Peter Dayan.Machine Learning . 1992 (3)
←
1
→