基于自主学习的自动驾驶决策与控制研究

来源 :中国科学院大学(中国科学院深圳先进技术研究院 | 被引量 : 0次 | 上传用户:a83312259
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着全球城市化进程的加速发展,交通安全与拥堵、环境污染等问题日益严重。自动驾驶技术有望解决这些问题,并已成为现代汽车技术的一个重要研究方向。特别是人工智能相关技术在自动驾驶领域的应用,为解决大规模、复杂城市场景下的自动驾驶汽车导航提供了可能。当前,自动驾驶汽车大多只能在具有高精度地图且相对封闭的场景下进行决策、规划与控制。这些方法是基于预设置的规则,即当车辆感知到的场景与设定场景相同时,按照定义好的规则决策行为。由于自动驾驶场景的复杂性,预设定的规则往往无法涵盖所有场景,导致自动驾驶汽车控制失败,甚至造成致命的后果。而数据和人工智能算法驱动的车辆自主学习能力,则有望应对复杂的自动驾驶场景。自动驾驶汽车需要感知复杂环境做出决策,控制车辆到达下一环境状态。并在和环境的不断交互中实现自主学习,不断优化决策控制方案。这一过程符合强化学习(Reinforcement Learning,RL)的工作范式,强化学习将连续决策问题建模为马尔可夫过程,并通过求解贝尔曼方程找到最优解。但是由于强化学习较高的计算复杂度,无法解决高维度(连续)状态空间和行为空间的问题。深度学习(Deep Learning,DL)具有强大的感知能力和非线性函数拟合能力,为解决高维问题提供了可能。深度强化学习(Deep Reinforcement Learning,DRL)结合了深度学习强大的感知能力与强化学习的推理能力,已经在移动机器人、机械臂、基于图像的游戏等领域取得了令人瞩目的成绩。模仿学习(Imitation Learning,IL)是另一种自主学习方法,智能体通过专家经验学习到策略并泛化到新的场景,弥补了深度强化学习学习速度慢、稳定性差的不足。本文依托中国科学院深圳先进技术研究院与澳门大学申请的联合基金“协同智能驱动的无人驾驶关键技术与平台研究”,对自主学习在自动驾驶决策与控制中的应用进行了深入研究。主要工作及创新点如下:(1)针对传统深度强化学习“试错”与自动驾驶汽车安全性要求之间的矛盾,本文提出了基于动态最小安全距离约束的深度强化学习变道超车框架。引入综合考虑安全、效率与舒适度的奖励函数,提升了变道策略的性能。基于动态最小安全距离约束的深度强化学习框架,确保车辆在训练及测试过程中安全性。采用Double DQN算法,实例化变道框架,在决策仿真平台Highway-env训练并测试。实验结果表明,本文所提框架训练所得的变道策略,在确保车辆安全的前提下,提高了超车的效率与舒适性。(2)针对传统车辆跟驰控制方法建模复杂、参数调节难的问题,本文提出了一种基于多帧RGB图像的深度强化学习控制方法。采用近端策略优化算法控制连续行为空间的加速和减速。为了解决连续行为空间造成的学习速度慢的问题,本文在深度强化学习与环境交互产生经验的基础上,添加了专家经验指导学习。分别使用结构化状态空间和非结构化状态空间提供环境信息。以图像信息作为环境感知数据输入到决策网络,符合人类驾驶感知与决策方式。为了验证奖励函数对深度强化学习策略优化的影响,本文使用了四种不同的奖励函数训练策略。实验结果表明,与传统的跟驰控制方法相比较,数据驱动的深度强化学习方法训练所得策略泛化能力强,稳定性高。(3)针对大规模、复杂城市场景下的自动驾驶导航问题,本文提出了基于偏航角引导的模仿学习框架,实现了城市场景下的自动驾驶端到端导航,并具有一定的可解释性。模仿学习通过收集专家经验(观测行为对),训练神经网络,并泛化到其他场景下。传统的端到端方法无法解决城市场景下的道路选择,即十字路口、丁字路口。条件分支网络将乘客的指令作为分支选择的标志,优化不同的分支网络参数。但是该方法降低了数据的使用效率。本文提出了偏航角引导的方法,有效的提高了数据的使用效率。并将Attention机制引入感知模块,Attention热图可视化了神经网络关注的重点区域。为场景与决策间的因果关系提供了分析的依据。综上所述,基于自主学习的自动驾驶决策与控制研究,弥补了基于规则与模型的传统决策与控制方法无法处理大规模、复杂场景的不足。为人工智能方法的应用提供了理论指导。
其他文献
随着互联网和智能移动终端的快速发展,全球越来越多的人使用基于web系统提供的如社交、游戏和购物等在线用户服务,海量用户对web网站的访问带来了海量的并发流量,这对web系统的高并发、高可用、高性能提出了新的挑战。由于web系统应用场景众多,其高并发、高可用、高性能受到诸多因素的综合影响,并且具有很大的不确定性。因此,对高并发web系统进行研究,具有重要的理论意义和实用价值。论文以web系统架构为基
《黄帝内经》首次提出“传化之腑”的概念,阐释了“传化之腑”藏泻功能的生理与病理2个方面的涵义,认为胃、大肠、小肠、三焦、膀胱五腑在生理上体现为泻而不藏、以泻为主的特性,在病理上表现为失藏与不泻、藏泻失司的特征。泻即为泻水谷变化之糟粕,藏即为藏水谷变化之精微。五腑失藏,在胃可见泄利下注,在肠可见土衰肠泻,且心肺受邪和木旺乘土均可致肠失其藏,在膀胱可见肾气不足致膀胱失约而遗溺;五腑不泻,在胃可见饮食饱
运用自制的简易抽水机模型,加深学生对气体压强的认识,引导学生自己动手制作实验装置,使瓶内气压发生变化,从而使瓶子有吸水、抽水的功能。利用制作的简易抽水机模型来说明生活中的活塞式抽水机,促进学生对大气压的认识,培养学生的模型建构能力。
依据多年降水量资料,挑选出特丰、平、特枯水代表年份,分析土壤实际蒸发量与降水量、水面蒸发量的相关关系,结果表明:(1)土壤实际蒸发量和降水量1d尺度中特丰水年、平水年份的土壤实际蒸发量和降水量多呈负相关,特枯水年份呈现较好的相关性。(2)1d无雨日中的大部分时间水面蒸发量是大于土壤实际蒸发量的,有雨日中,在某阈值内土壤实际蒸发量与水面蒸发呈正相关且部分大于水面蒸发,超过这一阈值,会出现水面蒸发值增
<正>在应试教育大环境的制约下,传统教学中教师完全掌控课堂,“重教轻学”让学生一直比较被动,不仅学习效果得不到保障,学习能力也得不到培养,个性与思维更得不到创新与发展。更严重的是,在教师权威性的震慑下,学生即使有想法也不敢表达,压抑了学生自主性的发展。新课改强调以学生为中心,教育教学要指向学生的主体地位。教师在课堂上要让学生敢说、敢想、敢做,具备良好的质疑能力。本文对此进行探讨。一、培养小学生质疑
期刊
由于工作环境恶劣、长期超负荷运行等原因,矿山机械设备易发生各种故障,影响选矿、采矿、探矿的效率。利用计算机技术、传感技术、信息技术及人工智能技术,对机械系统所处的状态进行监测,并进行故障识别。采用智能化的故障诊断技术,有助于故障的快速排除,保证矿山的安全生产。从矿山机械设备故障的原因入手,分析了故障诊断的基本方法,并提出了具体的维护策略。
高校是重要的人才培养基地,对中国社会的劳动力素质提高,社会成员的综合素养进步等有重要的影响作用。在一般的高校日常经营中,经常存在着科研与教学关系的紧张局面,在一定的条件下甚至演变为大学科研和教学之间的冲突。在现实的大学教学与科研工作中,不但存在两者的重心偏移问题,还存在着两者的工作分离等问题。文章以大学科研与教学关系的冲突背景为角度,探索大学科研与教学的关系现状,分析两者的融合性需求和有效融合策略
从宝相花纹的纹样源流入手,根据历史时间线,运用图像学研究规律,分析在不同时期宝相花装饰纹样及结构组成方式的转变。
人口老龄化是我国的基本国情,呈现出老年人口基数大、增长速度快、老龄化程度高等特点。应对人口老龄化趋势,各地加强制度建设,鼓励养老服务实践,为养老服务工作的进一步发展,积累了制度基础和丰富实践经验。本文分析国内各省市养老服务条例,总结地方立法经验,结合我国养老服务工作中面临的困境,提出养老服务立法的基本原则,发展养老服务应当解决的关键问题,以期以法治方式回应我国人口老龄化中出现的问题,将有效的社会养
在连续热镀锌生产过程中,铝是镀锌镀层的关键元素,其既能提高镀层的粘附性,又能改善镀层的加工成型性,从而改善产品质量。镀层中的铝含量主要受锌液铝含量、入锌锅温度、镀层重量、带钢运行速度等因素的影响。本文经过模型建立、实际论证发现:镀层铝含量与各影响因素之间有定量关系,且镀层铝含量(质量分数)随镀层重量的增加而减少;相同的镀层重量下,随带钢运行速度的降低而升高;锌液中的铝含量越高,镀层铝量也越高。