强化学习理论、算法及应用

被引:84
作者
张汝波
顾国昌
刘照德
王醒策
机构
[1] 哈尔滨工程大学计算机系!哈尔滨,,哈尔滨工程大学计算机系!哈尔滨,,哈尔滨工程大学计算机系!哈尔滨,,哈尔滨工程大学计算机系!哈尔滨,
基金
黑龙江省自然科学基金;
关键词
强化学习; 瞬时差分法; Q-学习; 自适应启发评价; 智能控制系统;
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
强化学习 (reinforcementlearning)一词来自于行为心理学 ,这一理论把行为学习看成是反复试验的过程 ,从而把环境状态映射成相应的动作 .首先全面地介绍了强化学习理论的主要算法 ,即瞬时差分法、Q 学习算法及自适应启发评价算法 ;然后介绍了强化学习的应用情况 ;最后讨论了强化学习目前所要研究的问题
引用
收藏
页码:637 / 642
页数:6
相关论文
共 24 条
[1]   基于强化学习的智能机器人避碰方法研究 [J].
张汝波 ;
周宁 ;
顾国昌 ;
张国印 .
机器人, 1999, (03) :45-50
[2]   Q学习算法中网格离散化方法的收敛性分析 [J].
蒋国飞 ;
高慧琪 ;
吴沧浦 .
控制理论与应用, 1999, (02) :194-198
[3]   基于Q学习算法和BP神经网络的倒立摆控制 [J].
蒋国飞 ;
吴沧浦 .
自动化学报, 1998, (05) :88-92
[4]   加强学习 [J].
郭茂祖 ;
陈彬 ;
王晓龙 ;
洪家荣 .
计算机科学, 1998, (03) :13-15
[5]   再励学习控制器结构与算法 [J].
马莉 ;
蔡自兴 .
模式识别与人工智能, 1998, 11 (01) :96-100
[6]   强化学习系统及其基于可靠度最优的学习算法 [J].
俞星星 ;
阎平凡 .
信息与控制, 1997, (05) :13-20
[7]   用加强学习方法解决基于神经网络的时序实时建模问题 [J].
杨璐,洪家荣,黄梯云 .
哈尔滨工业大学学报, 1996, (04) :136-139
[8]  
Linear Least-Squares algorithms for temporal difference learning[J] . Steven J. Bradtke,Andrew G. Barto.Machine Learning . 1996 (1)
[9]  
Reinforcement learning with replacing eligibility traces[J] . Satinder P. Singh,Richard S. Sutton.Machine Learning . 1996 (1)
[10]  
Incremental multi-step Q-learning[J] . Jing Peng,Ronald J. Williams.Machine Learning . 1996 (1)