深度强化学习综述:兼论计算机围棋的发展

被引:134
作者
赵冬斌 [1 ]
邵坤 [1 ]
朱圆恒 [1 ]
李栋 [1 ]
陈亚冉 [1 ]
王海涛 [1 ]
刘德荣 [2 ]
周彤 [3 ]
王成红 [4 ]
机构
[1] 中国科学院自动化研究所复杂系统管理与控制国家重点实验室
[2] 北京科技大学自动化学院
[3] 清华大学自动化系
[4] 国家自然科学基金委信息科学部
关键词
深度强化学习; 初弈号; 深度学习; 强化学习; 人工智能;
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
深度强化学习将深度学习的感知能力和强化学习的决策能力相结合,可以直接根据输入的图像进行控制,是一种更接近人类思维方式的人工智能方法.自提出以来,深度强化学习在理论和应用方面均取得了显著的成果.尤其是谷歌深智(Deep Mind)团队基于深度强化学习方法研发的计算机围棋"初弈号–Alpha Go",在2016年3月以4:1的大比分战胜了世界围棋顶级选手李世石(Lee Sedol),成为人工智能历史上一个新里程碑.为此,本文综述深度强化学习的发展历程,兼论计算机围棋的历史,分析算法特性,探讨未来的发展趋势和应用前景,期望能为控制理论与应用新方向的发展提供有价值的参考.
引用
收藏
页码:701 / 717
页数:17
相关论文
共 25 条
[1]   阿法狗围棋系统的简要分析 [J].
田渊栋 .
自动化学报, 2016, 42 (05) :671-675
[2]   深度学习在游戏中的应用 [J].
郭潇逍 ;
李程 ;
梅俏竹 .
自动化学报, 2016, 42 (05) :676-684
[3]   面向多机器人系统的增强学习研究进展综述 [J].
吴军 ;
徐昕 ;
王健 ;
贺汉根 .
控制与决策, 2011, 26 (11) :1601-1610+1615
[4]   强化学习研究综述 [J].
高阳 ;
陈世福 ;
陆鑫 .
自动化学报, 2004, (01) :86-100
[5]   A supervised Actor–Critic approach for adaptive cruise control [J].
Dongbin Zhao ;
Bin Wang ;
Derong Liu .
Soft Computing, 2013, 17 :2089-2099
[6]  
Action, Outcome, and Value[J] . Fiery Cushman.Personality and Social Psychology Review . 2013 (3)
[7]  
Self-teaching adaptive dynamic programming for Gomoku[J] . Dongbin Zhao,Zhen Zhang,Yujie Dai.Neurocomputing . 2011 (1)
[8]   Adaptive-resolution reinforcement learning with polynomial exploration in deterministic domains [J].
Bernstein, Andrey ;
Shimkin, Nahum .
MACHINE LEARNING, 2010, 81 (03) :359-397
[9]  
Teachable robots: Understanding human teaching behavior to build more effective robot learners[J] . Andrea L. Thomaz,Cynthia Breazeal.Artificial Intelligence . 2007 (6)
[10]   A fast learning algorithm for deep belief nets [J].
Hinton, Geoffrey E. ;
Osindero, Simon ;
Teh, Yee-Whye .
NEURAL COMPUTATION, 2006, 18 (07) :1527-1554