深度强化学习研究综述

被引：63

作者：

赵星宇 ^{[1
]}

丁世飞 ^{[1
,2
]}

机构：

[1] 中国矿业大学计算机科学与技术学院

[2] 中国科学院计算技术研究所智能信息处理重点实验室

来源：

计算机科学 | 2018年 / 45卷 / 07期

关键词：

深度强化学习; 深度学习; 强化学习; 人工智能;

D O I：

暂无

中图分类号：

TP181 [自动推理、机器学习];

学科分类号：

081104 ; 0812 ; 0835 ; 1405 ;

摘要：

作为一种崭新的机器学习方法,深度强化学习将深度学习和强化学习技术结合起来,使智能体能够从高维空间感知信息,并根据得到的信息训练模型、做出决策。由于深度强化学习算法具有通用性和有效性,人们对其进行了广泛的研究,并将其运用到了日常生活的各个领域。首先,对深度强化学习研究进行概述,介绍了深度强化学习的基础理论;然后,分别介绍了基于值函数和基于策略的深度强化学习算法,讨论了其应用前景;最后,对相关研究工作做了总结和展望。

引用

页码：1 / 6

页数：6

共 10 条

[1] 深度强化学习综述:兼论计算机围棋的发展 [J].

赵冬斌 ;

邵坤 ;

朱圆恒 ;

李栋 ;

陈亚冉 ;

王海涛 ;

刘德荣 ;

周彤 ;

王成红 .

控制理论与应用, 2016, 33 (06) :701-717

[2] 强化学习及其在电脑围棋中的应用 [J].

陈兴国 ;

俞扬 .

自动化学报, 2016, 42 (05) :685-695

[3] 强化学习研究综述 [J].

高阳 ;

陈世福 ;

陆鑫 .

自动化学报, 2004, (01) :86-100

[4] A fast learning algorithm for deep belief nets [J].

Hinton, Geoffrey E. ;

Osindero, Simon ;

Teh, Yee-Whye .

NEURAL COMPUTATION, 2006, 18 (07) :1527-1554

[5] Long short-term memory [J].

Hochreiter, S ;

Schmidhuber, J .

NEURAL COMPUTATION, 1997, 9 (08) :1735-1780

[6]

Simple Statistical Gradient-Following Algorithms for Connectionist Reinforcement Learning[J] . Ronald J. Williams.Machine Learning . 1992 (3)

[7]

Prioritized experience replay .2 Schaul T,Quan J,Antonoglou I,Silver D. Proceedings of the 4th International Conference on Learning Representations . 2016

[8]

End-to-end training of deep visuomotor policies .2 LEVINE S,FINN C,DARRELL T,et al. Journal of Machine Learning Research . 2016

[9]

Reinforcement learning with unsupervised auxiliary tasks .2 JADERBERG M,MNIH V,CZARNECKI W,et al. https://arxiv.org/abs/ 1611.05397 .

[10]

Deep reinforcement learning for dialogue generation .2 LI J,MONROE W,RITTER A,et al. https://arxiv.org/abs/ 1707.06347 .

← 1 →