强化学习理论、算法及应用

被引：84

作者：

张汝波

顾国昌

刘照德

王醒策

机构：

[1] 哈尔滨工程大学计算机系!哈尔滨,,哈尔滨工程大学计算机系!哈尔滨,,哈尔滨工程大学计算机系!哈尔滨,,哈尔滨工程大学计算机系!哈尔滨,

来源：

控制理论与应用 | 2000年 / 05期

基金：

黑龙江省自然科学基金;

关键词：

强化学习; 瞬时差分法; Q-学习; 自适应启发评价; 智能控制系统;

D O I：

暂无

中图分类号：

TP18 [人工智能理论];

学科分类号：

081104 ; 0812 ; 0835 ; 1405 ;

摘要：

强化学习 (reinforcementlearning)一词来自于行为心理学 ,这一理论把行为学习看成是反复试验的过程 ,从而把环境状态映射成相应的动作 .首先全面地介绍了强化学习理论的主要算法 ,即瞬时差分法、Q 学习算法及自适应启发评价算法 ;然后介绍了强化学习的应用情况 ;最后讨论了强化学习目前所要研究的问题

引用

页码：637 / 642

页数：6

共 24 条

[1] 基于强化学习的智能机器人避碰方法研究 [J].