深度强化学习研究综述

被引:63
作者
赵星宇 [1 ]
丁世飞 [1 ,2 ]
机构
[1] 中国矿业大学计算机科学与技术学院
[2] 中国科学院计算技术研究所智能信息处理重点实验室
关键词
深度强化学习; 深度学习; 强化学习; 人工智能;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
作为一种崭新的机器学习方法,深度强化学习将深度学习和强化学习技术结合起来,使智能体能够从高维空间感知信息,并根据得到的信息训练模型、做出决策。由于深度强化学习算法具有通用性和有效性,人们对其进行了广泛的研究,并将其运用到了日常生活的各个领域。首先,对深度强化学习研究进行概述,介绍了深度强化学习的基础理论;然后,分别介绍了基于值函数和基于策略的深度强化学习算法,讨论了其应用前景;最后,对相关研究工作做了总结和展望。
引用
收藏
页码:1 / 6
页数:6
相关论文
共 10 条
[1]   深度强化学习综述:兼论计算机围棋的发展 [J].
赵冬斌 ;
邵坤 ;
朱圆恒 ;
李栋 ;
陈亚冉 ;
王海涛 ;
刘德荣 ;
周彤 ;
王成红 .
控制理论与应用, 2016, 33 (06) :701-717
[2]   强化学习及其在电脑围棋中的应用 [J].
陈兴国 ;
俞扬 .
自动化学报, 2016, 42 (05) :685-695
[3]   强化学习研究综述 [J].
高阳 ;
陈世福 ;
陆鑫 .
自动化学报, 2004, (01) :86-100
[4]   A fast learning algorithm for deep belief nets [J].
Hinton, Geoffrey E. ;
Osindero, Simon ;
Teh, Yee-Whye .
NEURAL COMPUTATION, 2006, 18 (07) :1527-1554
[5]   Long short-term memory [J].
Hochreiter, S ;
Schmidhuber, J .
NEURAL COMPUTATION, 1997, 9 (08) :1735-1780
[6]  
Simple Statistical Gradient-Following Algorithms for Connectionist Reinforcement Learning[J] . Ronald J. Williams.Machine Learning . 1992 (3)
[7]  
Prioritized experience replay .2 Schaul T,Quan J,Antonoglou I,Silver D. Proceedings of the 4th International Conference on Learning Representations . 2016
[8]  
End-to-end training of deep visuomotor policies .2 LEVINE S,FINN C,DARRELL T,et al. Journal of Machine Learning Research . 2016
[9]  
Reinforcement learning with unsupervised auxiliary tasks .2 JADERBERG M,MNIH V,CZARNECKI W,et al. https://arxiv.org/abs/ 1611.05397 .
[10]  
Deep reinforcement learning for dialogue generation .2 LI J,MONROE W,RITTER A,et al. https://arxiv.org/abs/ 1707.06347 .