强化学习研究综述

被引：272

作者：

高阳

陈世福

陆鑫

机构：

[1] 南京大学计算机软件新技术国家重点实验室

[2] 南京大学计算机软件新技术国家重点实验室南京

来源：

自动化学报 | 2004年 / 01期

关键词：

强化学习; 部分感知; 函数估计; 多agent强化学习;

D O I：

10.16383/j.aas.2004.01.011

中图分类号：

TP181 [自动推理、机器学习];

学科分类号：

081104 ; 0812 ; 0835 ; 1405 ;

摘要：

强化学习通过试错与环境交互获得策略的改进,其自学习和在线学习的特点使其成为机器学习研究的一个重要分支.该文首先介绍强化学习的原理和结构;其次构造一个二维分类图,分别在马尔可夫环境和非马尔可夫环境下讨论最优搜索型和经验强化型两类算法;然后结合近年来的研究综述了强化学习技术的核心问题,包括部分感知、函数估计、多agent强化学习,以及偏差技术;最后还简要介绍强化学习的应用情况和未来的发展方向.

引用

页码：86 / 100

页数：15

共 14 条

[1] 一种自适应概率规划规则抽取算法 [J].

高阳 ;

陆鑫 ;

李宁 ;

陈世福 .

南京大学学报(自然科学版), 2003, (02) :145-152

[2] 一种基于强化学习的学习Agent [J].

李宁 ;

高阳 ;

陆鑫 ;

陈世福 .

计算机研究与发展, 2001, (09) :1051-1056

[3] 基于Markov对策的多Agent强化学习模型及算法研究 [J].

高阳 ;

周志华 ;

何佳洲 ;

陈世福 ;

不详 .

计算机研究与发展 , 2000, (03) :257-263

[4]

Planning and acting in partially observable stochastic domains[J] . Leslie Pack Kaelbling,Michael L. Littman,Anthony R. Cassandra.Artificial Intelligence . 1998 (1)

[5]

Elevator Group Control Using Multiple Reinforcement Learning Agents[J] . Robert H. Crites,Andrew G. Barto.Machine Learning . 1998 (2)

[6] ASYNCHRONOUS STOCHASTIC-APPROXIMATION AND Q-LEARNING [J].

TSITSIKLIS, JN .

MACHINE LEARNING, 1994, 16 (03) :185-202

[7]

Self-Improving Reactive Agents Based on Reinforcement Learning, Planning and Teaching[J] . Long-Ji Lin.Machine Learning . 1992 (3)

[8]

Q -learning[J] . Christopher J. C. H. Watkins,Peter Dayan.Machine Learning . 1992 (3)

[9]

A situated-automata approach to the design of embedded agents[J] . Leslie Pack Kaelbling.ACM SIGART Bulletin . 1991 (4)

[10] A SURVEY OF ALGORITHMIC METHODS FOR PARTIALLY OBSERVED MARKOV DECISION PROCESSES [J].

Lovejoy, William S. .

ANNALS OF OPERATIONS RESEARCH, 1991, 28 (01) :47-65

← 1 2 →