基于深度强化学习的自动驾驶决策控制研究

来源 :大连理工大学 | 被引量 : 2次 | 上传用户:foxdeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动驾驶是目前人工智能领域的研究热点之一,而决策控制技术是自动驾驶的核心技术,是保证自动驾驶车安全性的重要因素,对它进行研究具有重要意义。如何在各种场景下快速、准确地做出决策是自动驾驶决策控制技术中的关键问题。作为人工智能领域的核心技术之一,深度强化学习(Deep Reinforcement Learning,DRL)是解决自动驾驶决策控制问题的有效方法,通过智能体与环境交互,并根据环境的反馈进行驾驶策略的学习,从而实现自主决策的目标。本文主要面向端到端的自动驾驶决策控制技术的需求,研究了基于深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)的自动驾驶决策控制方法。针对基于DDPG的自动驾驶决策控制方法存在初始阶段策略较差、无法有效学习到人类驾驶技巧以及无法适用于无梯度场景等问题,提出了相应的解决方法,本文具体研究贡献如下:1.针对DDPG算法初始阶段策略较差,以及无法有效学习到人类驾驶技巧的问题,提出了一种结合了专家经验的DDPGwE(DDPG with Expert)算法。DDPGwE算法使用专家经验对演员网络进行预训练,使智能体具有一些“先验知识”,并且在演员网络中加入LSTM模块,提高自动驾驶车对未来情况的预判能力。同时,对评论家网络的损失函数进行了改进,使得专家经验可以作为评论家网络对演员网络策略评价的辅助引导。实验结果表明,DDPGwE算法学习到了更好的策略,学习速度较快,具有更好的泛化能力和鲁棒性。2.针对使用奖励值引导的DDPG算法存在的奖励函数定义困难的问题,本文提出了结合了生成对抗模仿学习的DDPG算法(Generative Adversarial DDPG,GADDPG)。GADDPG算法利用专家经验,通过生成对抗的方式,直接从专家经验中学习策略并获得奖励值,替代了原有DDPG算法从环境获取奖励进行学习的方式。实验结果表明,GADDPG算法能够很好的学习到人类专家的策略,学习速度较快。3.针对现有的深度强化学习算法无法适用于无梯度场景的问题,本文提出了一种无梯度的协同进化强化学习(Co-evolutionary Reinforcement Learning,COERL)算法。COERL算法使用进化的方式设计神经网络结构,并且用协同进化算法优化神经网络权重,解决了无梯度场景下的参数优化问题,提高了自动驾驶车的策略学习能力。实验结果表明,COERL算法相较于深度强化学习算法具有竞争性,在某些任务上其性能优于其它的深度强化学习算法。
其他文献
抗N-甲基-D-天冬氨酸受体(N-methyl-D-aspartate receptor,NMDAR)脑炎,是一种由抗NMDAR 抗体介导的自身免疫性脑炎。该病好发于年轻女性患者,部分患者可伴肿瘤。该病的诊断主
2018年春季,采用插皮舌接和方块芽接两种嫁接方法对核桃品种进行改良,通过调查发现,以春季插皮舌接嫁接法成活率、平均枝条长度、平均枝条粗度和平均坐果数高,分别达到了83.0
<正>随着我国经济的不断发展,高新技术的应用在医疗事业的发展中起到了重要的作用。这对人们生活的影响比较大,在医院的日常工作流程中,诊疗的流程、诊疗的模式、档案的管理
国内SF6气体绝缘类的电气设备常发生局部放电故障,影响电力系统的安全稳定运行。针对这种情况,文中提出了基于电气设备局部放电的超声波检测技术,对电气设备进行局部放电故障
<正>我园将幼儿角色游戏结束部分的活动称之为游戏分享活动(以下简称分享活动)。教师在组织小班幼儿分享活动时有两个重要任务,其一是引导幼儿分享在游戏中的快乐体验,进一步
《共产党宣言》蕴藏着马克思、恩格斯的三大教育理念。第一,强调教育公平,驳斥对无产阶级的教育不公。第二,注重受教育者的个性发展,批判对工人及其子女的个性压迫。第三,主
李宝群是当代优秀的剧作家,在他迄今为止三十余年的创作生涯中,创作了百余部戏剧作品,对当代中国戏剧的发展作了积极、有益的探索。本论文立足于中国戏剧出版社出版的《李宝群剧作集》(四卷本),系统地论述李宝群的剧作艺术。第一章介绍了李宝群的生平和创作背景,以及在不同环境下的剧作特点,侧重他的经历对他创作的影响。对他每一阶段的代表作品进行深入的解读和研究,通过探究为之后艺术特色与创作技法的研究做铺垫。第二章
本刊讯 (《中国当代医药》记者凌寒)“我国是一个高血压大国,流行病学调查提示,目前我国高血压防控现状呈现“三高三低”,即患病率高、死亡率高、致残率高和知晓率低、治疗率低、
重型再生障碍性贫血(SAA)为多种原因引起的骨髓造血功能急剧衰竭致全血细胞极度减少的一组临床综合征。重型再生障碍性贫血病情进展迅速,预后凶险,诊断1a后自然病死率高达80%~90%,多
针对传统射频前端存在频段覆盖范围小、通信速率低、通信带宽小、收发通道数目少、通用性差等问题,亟需研发一款频段覆盖范围大、通信速率高、通信带宽大、收发通道数目多、