论文部分内容阅读
摘要:在高端人工智能领域中,感知力和决策能力都是衡量智能水平的重要指标。将深度学习的感知能力与强化学习的决策能力相结合,使得智能体能够从高维的状态动作空间中感知信息,通过得到的信息对模型进行训练、做出决策,以能够通过端对端的学习方式来实现从原始输入到输出的直接控制。本文介绍了深度学习和强化学习基础知识;阐述了深度强化学习主流算法中的DQN及其变种和应用,分析了深度层次强化学习算法。最后对相关工作做了总结和展望。
关键词:深度学习;强化学习;深度强化学习;层次强化学习;人工智能
中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2019)04-0157-03
Abstract:In the field of advanced artificial intelligence, perceptual ability and decision-making capacity are both important indicators to measure the level of intelligence.Combining the perceptual ability of deep learning with the decision-making capacity of reinforcement learning, which makes that the agent can perceive imformation from the high-dimensional state action space, train the model and make decisions through the information obtained. So that we can achieve the direct control from original input to output through end to end learning. In this paper, we introduce the basic knowledge of deep learning and reinforcement learning; Elaborating the DQN and its variants and applications, which is the mainstream algorithm of deep reinforcement learning, analysising the algorithm of deep hierarchies reinforcement learning. Finally, the related researches were summarized and prospected.
Key words:Deep learning; Reinforcement learning; Deep Reinforcement learning; Hierarchies reinforcement learning; Artificial Intelligence
2016年由Google拥有的人工智能(AI)研究团队DeepMind创新性地将具有感知能力的深度学习(Deep Learning:DL)和具有决策能力的强化学习(Reinforcement Learning:RL)相联合,提出了深度强化学习(Deep Reinforcement Learning:DRL)算法。通过DRL算法训练得到的围棋智能体——AlphaGo击败了人类顶尖职业棋手,引起了全世界的关注,开启了AI领域研究的新时代。
近几年,DRL算法被广泛应用于视频预测、文本生成、机器人、机器翻译、控制优化、目标定位、文本游戏、自动驾驶等多个领域中,展现了强大的适应和学习能力。因此,深入分析和研究DRL算法,对于促进人工智能领域的发展及拓展其应用具有极其重要的意义[1]。
1 深度强化学习理论基础
1.1 深度学习
2006年,Hinton及其学生等人[2]提出了深度网络的概念,开启了DL研究的热潮。DL的核心思想是对观察数据进行分层特征表示,实现由低级特征进一步抽象到高级特征[3]。
深度学习的模型主要有:深度信念网络(DBN)、卷积神经网络(CNN)、循环神经网络(RNN)等。
深度学习的发展阶段包括:萌芽期:BP算法的发明(1970s-1980s)到2006年;发展期:从2006年Hinton等人提出的‘深度学习’概念以及训练方法到2012年。该阶段主要以深度无监督学习为研究重点;爆发期:从2012年Hinton团队的Alexnet模型[4]在Imagenet竞赛中取得惊人的成绩至今。
当今社会,深度学习广泛应用于人工智能相关多个领域,极大促进了机器学习的发展。受到世界各国高科技公司和研究人员的重视。
1.2 强化学习
强化学习(RL)是机器学习中的重要学习工具。主要解决的是序贯决策问题,智能体(Agent)通过动作与环境进行交互时,环境会返给Agent一个当前的奖励,Agent根據当前的奖励评估所采取的动作。经过数次迭代学习后,Agent可以最终学到达到相应目标的最优动作(最优策略[5])。
RL问题通常由马尔科夫决策过程(Markov Decision Process, MDP)来建模。MDP通常由元组(S,A,P,R,γ)描述,其中:
(1) S为所有环境状态的集合,s·S。
(2) A为有限的动作集合,a∈A。
(3) P为状态转移概率,P(s’/s,a)表示在s状态下执行动作a时,转移到s’的概率。 (4) R为奖励函数,Rs=E[Rt 1|St=S]指某一时刻t在状态s下到下一时刻t 1能够获得的奖励期望。
(5) γ为折扣因子,用来计算累积回报。0≤γ≤1。
2.2 DQN变种
近年来,DRL主要研究关于DQN和策略梯度方法及其改进算法。将双Q 学习应用于DQN中,实现了Double DQN算法,有效地避免了乐观值的估计;将动作优势值和状态值区分开,实现了Dueling DQN,从而使网络架构和RL算法能够更好地联结在一起。将DQN对经验的优先次序进行处理,使用经验优先回放(Prioritied Experience Replay)技术实现了更加高效的学习。
2015年Lillicrap等[8]将确定性策略梯度算法(DPG)与 Actor-Critic框架相结合,提出了一个与任务无关的模型--深度确定性策略梯度(DDPG)算法。DDPG采取经验回放机制,通过目标网络的参数不断与原网络的参数加权平均训练,从而达到避免振荡的效果。
2017年Heess等人在信赖域策略优化算法(TROP)基础上提出了分布式近似策略优化算法(DPPO[9-10]);DPPO引入了旧策略和更新之后的策略所预测的概率分布之间的KL差异,避免了参数训练时候的震荡,并由此来控制参数更新的过程。
此外,人们对DRL算法及其模型架构也做了众多相关方面的研究。比较著名的是异步优势行动者评论家(A3C[11])算法。A3C融合了之前幾乎所有的深度强化学习算法。A3C算法利用CPU多线程的功能异步、并行地执行多个Agent。同时,基于记忆的深度强化学习模型、逆向深度强化学习、无监督辅助强化学习算法等的提出,极大地提高了算法的性能。
3 深度层次强化学习
当RL方法用于复杂的连续高维状态空间时,由于状态空间维数的不断增加,会导致学习参数的数量成指数形式增长,采用层次强化学习(Hierarchical Reinforcement Learning,HRL)算法,简化了以往选取特征值的复杂度,避免了数据出现维数灾问题。HRL是将复杂的RL问题分解成一些容易解决的子问题,通过分别解决这些子问题,从而可以达到最终解决原始的复杂问题[12]。
目前常用的HRL方法有四大类:基于选项(Option)、基于分层抽象机(HAM)、基于MaxQ函数分解以及端到端的HRL。本节主要对Option和HAM进行探讨。
3.1 OPTION算法
Option方法是1999年由Sutton等人[13]提出的,是一种对动作的抽象描述。Option可表示为一个三元组。其中,I∈S表示Option的初始状态集合;π:S×A→[0,1]表示Option中的策略;β:S→[0,1]表示Option的终止条件。当且仅当s∈I,在状态s上可用。Option开始执行时,Agent通过该Option的π进行动作选择直到终止。
4 深度强化学习主要应用
4.1 计算机视觉
基于视觉感知的DRL模型可以在只输入原始图像的情况下,输出当前状态下所有可能动作的预测回报。2015年,DeepMind公司利用Atari平台上的49款游戏对深度Q网络进行了测试,发现通过DQN的训练,计算机能够在其中的29款游戏中取得超过人类职业玩家75%的得分。Zhu等人构造出了基于残差网络的深度孪生行动者评论家模型,该模型对于不同任务,可以同时接收观察图像和目标图像作为输入,并通过A3C算法来训练网络参数。
4.2 计算机博弈
2016年3月,DeepMind公司研制出的围棋博弈系统AlphaGo在与世界围棋冠军李世石的对战当中,以4:1的大比分取胜;2017年1月,AlphaGo的升级版 Master在与世界顶尖围棋大师的对战中全部取得了胜利。此外Heinrich等人提出了一种名为神经虚拟自我对局(NFSP)的博弈方法,通过该方法,可以成功掌握了玩德州扑克游戏的技巧。
4.3 机器人控制
基于策略梯度的DRL方法实现了对机器人的行为控制,Levine等人利用深度CNN来近似表示策略,在基于手眼协调的机器人抓取任务中取得了优异的成绩。由于在真实场景下机器人的训练数据十分缺乏,随着并行计算能力的提升,利用多线程技术来收集不同机器人的训练数据结合异步的引导式策略搜索算法,通过多Agent协同学习的方式,可以在一些真实场景下的机器人操纵任务上拥有更好的泛化能力。
4.4 自然语言处理
通过DRL方法来衡量对话生成中的一些指标,模型可以自动地生成应答的语句。人机对话的一个典型模型是Sutskever于2014年提出的SEQ2SEQ。将深度强化学习的方法引入其中,使用策略梯度方法来优化模型,使得产生的有效对话数量和多样性均得到了改善。
5 总结与展望
论文分析了DRL,包括DRL的理论基础、主要算法以及实际应用等。DRL方法的成功主要得益于大幅度提升的训练数据量和计算能力。为了不断接近通用AI的终极目标,在未来的学习和研究中,DRL会朝着如下几个方向发展[16]:(1)无监督的生成模型;(2)进一步加强认知神经科学对DRL的启发;(3)将迁移学习应用到DRL中;(4)通过组合式、增量式的学习方式来训练DRL;(5)在DRL网络模型加入不同种类的记忆单元、注意力机制、反馈控制等辅助结构等。
DRL目前正处于发展阶段,仍有很多问题值得进一步深入研究[1]:(1)将DRL算法对应到人脑机理的生理学研究,是一项重要并且难度极高的工作;(2)如何更好地在复杂场景中将知识迁移技术运用到DRL中,是一项重要的课题;(3)如何在样本稀缺、环境复杂的外界激励下,根据所掌握的知识做出正确的决策,是DRL未来的重要研究方向之一;(4)如何将更多的深度学习模型运用到DRL算法中,也是一项重要的研究课题。 作为当今AI领域最热门的研究方向之一,DRL已经吸引了越来越多学术界和工业界人士的关注与研究。随着科学技术水平的逐步提高,DRL的相关研究势必对人们的生活产生越来越大的影响,为人类的进步做出更大的贡献。
参考文献:
[1] 赵星宇,丁世飞.深度强化学习研究综述[J].计算机科学,2018,45(07):1-6.
ZHAO Xingyu,DING Shifei.Research overviw of Deep Reinforcement Learning[J]. Computer Science, 2018,45(07):1-6.
[2] Hiton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets. Neural Computation, 2006, 18(7):1527-1554.
[3] DENG L, YU D. Deep learning: methods and applications[J]. Foundations and Trends in Signal Processing, 2014, 7(3/4):197-387.
[4] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[C]//Advances in Neural Information Processing Systems. Lake Tahoe: MIT Press, 2012: 1097-1105.
[5] Sutton R S, Barto A G. Reinforcement learning: An Introduction. Cambrideg, USA: MIT Press, 1998.
[6] LITTMAN M L. Reinforcement learning improves behaviour from evaluative feedback[J]. Nature, 2015, 521(7553):445-451.
[7] Lin L J. Reinforcement learning for robots using neural networks. Defnse Technical Information Center, USA: DTIC Technical Report: ADA261434, 1993.
[8] LILLICRAP T, HUNT J, PRITZEL A, et al.Continuous control with deep reinforcement learning[J/OL]. https://arxiv.org/abs.1509.02971.
[9] SCHULMAN J, WOLSKI F, DHARIWAL P, et al. Proximal Policy Optimization Algorithms[J/OL]. https://arxiv.org/abs/1707.06347
[10] HEESS N, DHRUVA T, SRIRAM S, et al. Emergence of Locomotion Behaviours in Rich Environments[J/OL]. https://arxiv.org/abs/1707.02286.
[11] MNIH V, BADIA A, MIRZA M, et al. Asynchronous methods for deep reinforcement learning[C]//International Conference on Machine Learning. 2016:1928-1937.
[12] DU X, LI Q, HAN J.Applying hierarchical reinforcement learning to computer games[C]//In Proceedings of IEEE International Conference on Automation and Logistics. Xi’an, China, 2009: 929-932.
[13] Sutton R S. Precup D. Singh S P. Between MDPs and semi-MDPs: A framework for temporal abstraction in reinforcement learning[J]. Artificial Intelligence, 1999, 112(1): 181-211.
[14] PARR R, RUSSELL S. Reinforcement learning with hierarchies of machines[C]//Advances in Neural Information Processing Systems. Colorado, USA, 1998: 1043-1049.
[15] 周文吉,俞揚.分层强化学习综述[J].智能系统学报,2017,12(05):590-594.
ZHOU Wenji,YU Yang. Summarize on Hierarchies Reinforcement Learning[J]. Journal of Intelligent Systems, 2017,12(05):590-594.
[16] 刘全,翟建伟,章宗长,等..深度强化学习综述[J].计算机科学,2018,45(07):1-6.
LIU Quan,ZHAI Jianwei,ZHANG Zongchang,ZHONG Shan,ZHOU Qian,ZHANG Peng,XU Jin.A Survey on Deep Reinforcement Learning[J]. Computer Science, 2018,41(01):1-27.
【通联编辑:唐一东】
关键词:深度学习;强化学习;深度强化学习;层次强化学习;人工智能
中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2019)04-0157-03
Abstract:In the field of advanced artificial intelligence, perceptual ability and decision-making capacity are both important indicators to measure the level of intelligence.Combining the perceptual ability of deep learning with the decision-making capacity of reinforcement learning, which makes that the agent can perceive imformation from the high-dimensional state action space, train the model and make decisions through the information obtained. So that we can achieve the direct control from original input to output through end to end learning. In this paper, we introduce the basic knowledge of deep learning and reinforcement learning; Elaborating the DQN and its variants and applications, which is the mainstream algorithm of deep reinforcement learning, analysising the algorithm of deep hierarchies reinforcement learning. Finally, the related researches were summarized and prospected.
Key words:Deep learning; Reinforcement learning; Deep Reinforcement learning; Hierarchies reinforcement learning; Artificial Intelligence
2016年由Google拥有的人工智能(AI)研究团队DeepMind创新性地将具有感知能力的深度学习(Deep Learning:DL)和具有决策能力的强化学习(Reinforcement Learning:RL)相联合,提出了深度强化学习(Deep Reinforcement Learning:DRL)算法。通过DRL算法训练得到的围棋智能体——AlphaGo击败了人类顶尖职业棋手,引起了全世界的关注,开启了AI领域研究的新时代。
近几年,DRL算法被广泛应用于视频预测、文本生成、机器人、机器翻译、控制优化、目标定位、文本游戏、自动驾驶等多个领域中,展现了强大的适应和学习能力。因此,深入分析和研究DRL算法,对于促进人工智能领域的发展及拓展其应用具有极其重要的意义[1]。
1 深度强化学习理论基础
1.1 深度学习
2006年,Hinton及其学生等人[2]提出了深度网络的概念,开启了DL研究的热潮。DL的核心思想是对观察数据进行分层特征表示,实现由低级特征进一步抽象到高级特征[3]。
深度学习的模型主要有:深度信念网络(DBN)、卷积神经网络(CNN)、循环神经网络(RNN)等。
深度学习的发展阶段包括:萌芽期:BP算法的发明(1970s-1980s)到2006年;发展期:从2006年Hinton等人提出的‘深度学习’概念以及训练方法到2012年。该阶段主要以深度无监督学习为研究重点;爆发期:从2012年Hinton团队的Alexnet模型[4]在Imagenet竞赛中取得惊人的成绩至今。
当今社会,深度学习广泛应用于人工智能相关多个领域,极大促进了机器学习的发展。受到世界各国高科技公司和研究人员的重视。
1.2 强化学习
强化学习(RL)是机器学习中的重要学习工具。主要解决的是序贯决策问题,智能体(Agent)通过动作与环境进行交互时,环境会返给Agent一个当前的奖励,Agent根據当前的奖励评估所采取的动作。经过数次迭代学习后,Agent可以最终学到达到相应目标的最优动作(最优策略[5])。
RL问题通常由马尔科夫决策过程(Markov Decision Process, MDP)来建模。MDP通常由元组(S,A,P,R,γ)描述,其中:
(1) S为所有环境状态的集合,s·S。
(2) A为有限的动作集合,a∈A。
(3) P为状态转移概率,P(s’/s,a)表示在s状态下执行动作a时,转移到s’的概率。 (4) R为奖励函数,Rs=E[Rt 1|St=S]指某一时刻t在状态s下到下一时刻t 1能够获得的奖励期望。
(5) γ为折扣因子,用来计算累积回报。0≤γ≤1。
2.2 DQN变种
近年来,DRL主要研究关于DQN和策略梯度方法及其改进算法。将双Q 学习应用于DQN中,实现了Double DQN算法,有效地避免了乐观值的估计;将动作优势值和状态值区分开,实现了Dueling DQN,从而使网络架构和RL算法能够更好地联结在一起。将DQN对经验的优先次序进行处理,使用经验优先回放(Prioritied Experience Replay)技术实现了更加高效的学习。
2015年Lillicrap等[8]将确定性策略梯度算法(DPG)与 Actor-Critic框架相结合,提出了一个与任务无关的模型--深度确定性策略梯度(DDPG)算法。DDPG采取经验回放机制,通过目标网络的参数不断与原网络的参数加权平均训练,从而达到避免振荡的效果。
2017年Heess等人在信赖域策略优化算法(TROP)基础上提出了分布式近似策略优化算法(DPPO[9-10]);DPPO引入了旧策略和更新之后的策略所预测的概率分布之间的KL差异,避免了参数训练时候的震荡,并由此来控制参数更新的过程。
此外,人们对DRL算法及其模型架构也做了众多相关方面的研究。比较著名的是异步优势行动者评论家(A3C[11])算法。A3C融合了之前幾乎所有的深度强化学习算法。A3C算法利用CPU多线程的功能异步、并行地执行多个Agent。同时,基于记忆的深度强化学习模型、逆向深度强化学习、无监督辅助强化学习算法等的提出,极大地提高了算法的性能。
3 深度层次强化学习
当RL方法用于复杂的连续高维状态空间时,由于状态空间维数的不断增加,会导致学习参数的数量成指数形式增长,采用层次强化学习(Hierarchical Reinforcement Learning,HRL)算法,简化了以往选取特征值的复杂度,避免了数据出现维数灾问题。HRL是将复杂的RL问题分解成一些容易解决的子问题,通过分别解决这些子问题,从而可以达到最终解决原始的复杂问题[12]。
目前常用的HRL方法有四大类:基于选项(Option)、基于分层抽象机(HAM)、基于MaxQ函数分解以及端到端的HRL。本节主要对Option和HAM进行探讨。
3.1 OPTION算法
Option方法是1999年由Sutton等人[13]提出的,是一种对动作的抽象描述。Option可表示为一个三元组。其中,I∈S表示Option的初始状态集合;π:S×A→[0,1]表示Option中的策略;β:S→[0,1]表示Option的终止条件。当且仅当s∈I,在状态s上可用。Option开始执行时,Agent通过该Option的π进行动作选择直到终止。
4 深度强化学习主要应用
4.1 计算机视觉
基于视觉感知的DRL模型可以在只输入原始图像的情况下,输出当前状态下所有可能动作的预测回报。2015年,DeepMind公司利用Atari平台上的49款游戏对深度Q网络进行了测试,发现通过DQN的训练,计算机能够在其中的29款游戏中取得超过人类职业玩家75%的得分。Zhu等人构造出了基于残差网络的深度孪生行动者评论家模型,该模型对于不同任务,可以同时接收观察图像和目标图像作为输入,并通过A3C算法来训练网络参数。
4.2 计算机博弈
2016年3月,DeepMind公司研制出的围棋博弈系统AlphaGo在与世界围棋冠军李世石的对战当中,以4:1的大比分取胜;2017年1月,AlphaGo的升级版 Master在与世界顶尖围棋大师的对战中全部取得了胜利。此外Heinrich等人提出了一种名为神经虚拟自我对局(NFSP)的博弈方法,通过该方法,可以成功掌握了玩德州扑克游戏的技巧。
4.3 机器人控制
基于策略梯度的DRL方法实现了对机器人的行为控制,Levine等人利用深度CNN来近似表示策略,在基于手眼协调的机器人抓取任务中取得了优异的成绩。由于在真实场景下机器人的训练数据十分缺乏,随着并行计算能力的提升,利用多线程技术来收集不同机器人的训练数据结合异步的引导式策略搜索算法,通过多Agent协同学习的方式,可以在一些真实场景下的机器人操纵任务上拥有更好的泛化能力。
4.4 自然语言处理
通过DRL方法来衡量对话生成中的一些指标,模型可以自动地生成应答的语句。人机对话的一个典型模型是Sutskever于2014年提出的SEQ2SEQ。将深度强化学习的方法引入其中,使用策略梯度方法来优化模型,使得产生的有效对话数量和多样性均得到了改善。
5 总结与展望
论文分析了DRL,包括DRL的理论基础、主要算法以及实际应用等。DRL方法的成功主要得益于大幅度提升的训练数据量和计算能力。为了不断接近通用AI的终极目标,在未来的学习和研究中,DRL会朝着如下几个方向发展[16]:(1)无监督的生成模型;(2)进一步加强认知神经科学对DRL的启发;(3)将迁移学习应用到DRL中;(4)通过组合式、增量式的学习方式来训练DRL;(5)在DRL网络模型加入不同种类的记忆单元、注意力机制、反馈控制等辅助结构等。
DRL目前正处于发展阶段,仍有很多问题值得进一步深入研究[1]:(1)将DRL算法对应到人脑机理的生理学研究,是一项重要并且难度极高的工作;(2)如何更好地在复杂场景中将知识迁移技术运用到DRL中,是一项重要的课题;(3)如何在样本稀缺、环境复杂的外界激励下,根据所掌握的知识做出正确的决策,是DRL未来的重要研究方向之一;(4)如何将更多的深度学习模型运用到DRL算法中,也是一项重要的研究课题。 作为当今AI领域最热门的研究方向之一,DRL已经吸引了越来越多学术界和工业界人士的关注与研究。随着科学技术水平的逐步提高,DRL的相关研究势必对人们的生活产生越来越大的影响,为人类的进步做出更大的贡献。
参考文献:
[1] 赵星宇,丁世飞.深度强化学习研究综述[J].计算机科学,2018,45(07):1-6.
ZHAO Xingyu,DING Shifei.Research overviw of Deep Reinforcement Learning[J]. Computer Science, 2018,45(07):1-6.
[2] Hiton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets. Neural Computation, 2006, 18(7):1527-1554.
[3] DENG L, YU D. Deep learning: methods and applications[J]. Foundations and Trends in Signal Processing, 2014, 7(3/4):197-387.
[4] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[C]//Advances in Neural Information Processing Systems. Lake Tahoe: MIT Press, 2012: 1097-1105.
[5] Sutton R S, Barto A G. Reinforcement learning: An Introduction. Cambrideg, USA: MIT Press, 1998.
[6] LITTMAN M L. Reinforcement learning improves behaviour from evaluative feedback[J]. Nature, 2015, 521(7553):445-451.
[7] Lin L J. Reinforcement learning for robots using neural networks. Defnse Technical Information Center, USA: DTIC Technical Report: ADA261434, 1993.
[8] LILLICRAP T, HUNT J, PRITZEL A, et al.Continuous control with deep reinforcement learning[J/OL]. https://arxiv.org/abs.1509.02971.
[9] SCHULMAN J, WOLSKI F, DHARIWAL P, et al. Proximal Policy Optimization Algorithms[J/OL]. https://arxiv.org/abs/1707.06347
[10] HEESS N, DHRUVA T, SRIRAM S, et al. Emergence of Locomotion Behaviours in Rich Environments[J/OL]. https://arxiv.org/abs/1707.02286.
[11] MNIH V, BADIA A, MIRZA M, et al. Asynchronous methods for deep reinforcement learning[C]//International Conference on Machine Learning. 2016:1928-1937.
[12] DU X, LI Q, HAN J.Applying hierarchical reinforcement learning to computer games[C]//In Proceedings of IEEE International Conference on Automation and Logistics. Xi’an, China, 2009: 929-932.
[13] Sutton R S. Precup D. Singh S P. Between MDPs and semi-MDPs: A framework for temporal abstraction in reinforcement learning[J]. Artificial Intelligence, 1999, 112(1): 181-211.
[14] PARR R, RUSSELL S. Reinforcement learning with hierarchies of machines[C]//Advances in Neural Information Processing Systems. Colorado, USA, 1998: 1043-1049.
[15] 周文吉,俞揚.分层强化学习综述[J].智能系统学报,2017,12(05):590-594.
ZHOU Wenji,YU Yang. Summarize on Hierarchies Reinforcement Learning[J]. Journal of Intelligent Systems, 2017,12(05):590-594.
[16] 刘全,翟建伟,章宗长,等..深度强化学习综述[J].计算机科学,2018,45(07):1-6.
LIU Quan,ZHAI Jianwei,ZHANG Zongchang,ZHONG Shan,ZHOU Qian,ZHANG Peng,XU Jin.A Survey on Deep Reinforcement Learning[J]. Computer Science, 2018,41(01):1-27.
【通联编辑:唐一东】