基于深度强化学习算法的智能驾驶决策技术研究

来源 :桂林电子科技大学 | 被引量 : 1次 | 上传用户:han8349
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
无人驾驶技术一直以来都是学者研究的重要方向,近些年人工智能产业、高精度雷达技术的高速发展以及5G技术的商用等都对自动驾驶技术的发展提供了很大支持。深度强化学习集深度学习的感知能力和强化学习的决策能力于一体,对于处理自动驾驶这种需要感知环境并进行驾驶决策的领域具有良好的适用性,所以利用深度强化学习算法进行决策技术的研究具有很重要的现实意义。通过分析无人驾驶技术和深度强化学习技术的现状,针对不同深度强化学习算法的局限性选择了适合连续动作的深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)在TORCS(The Open Racing Car Simulator)环境中进行自动驾驶决策策略的学习。分析DDPG算法实验得到的结果可知原始算法具有训练速度慢、训练过程不稳定的情况。针对该情况提出了双重指导的平均深度确定性策略梯度算法(Average Deep Deterministic Policy Gradient for Double Imitation,Average-DDPGf DI)算法。Average-DDPGf DI算法针对原始算法训练速度慢的情况利用专家控制器对原始算法的训练过程进行在线和离线两部分的指导学习来提升算法的学习速度。利用专家控制器进行专家数据的收集和标签标定,然后采用经验池分离技术,将专家经验样本、高质量经验样本和低质量经验样本进行隔离存放,三者共同构成完整的经验池。由于原始算法中采用的Actor-Critic结构是通过Critic网络(评价网络)对Actor网络(策略网络)进行指导来学习策略,所以针对不同的经验样本我们设计并采用了不同的损失函数来进行评价网络参数的更新。Average-DDPGf DI算法针对原始算法训练过程不稳定的情况设计了更符合道路行驶的回报函数,考虑让车辆行驶在道路中线,避免转弯驶出当前道路。同时考虑车辆在直线行驶获得较大回报,在弯道行驶减速安全通过,所以该回报函数对于车身位置和车辆行驶速度进行了限制。对于原始算法中评价网络的过估计情况,采用双重评价网络和平均评价网络的估计值来进行过估计值的约束。降低策略网络和目标网络的更新速度减小累计误差,通过四者结合的方式来稳定训练过程。最后在TORCS仿真平台上对改进前后的算法进行了测试分析。实验数据表明:在策略学习速度方面,Average-DDPGf DI较原始算法提升一倍左右;采取四个历史评价值的平均值进行训练时,学习过程更加稳定,平均回报稳步上升;利用双重评价网络可以使车辆的有效行驶距离提升三倍甚至更远。结论符合理论预期,证实了文本思路的可行性。
其他文献
随着科学技术的发展,各行各业的发展和进步都离不开信息技术。建筑业作为我国的支柱产业之一,也在不断朝大型化、复杂化等方向发展,这就意味着我国以前固有的工程管理系统需要改变和不断进步,才能逐步适应这种发展变化。目前我国的工程项目管理信息化建设仍存在缺乏对工程项目建设的集成管理、缺乏创新等问题,这些方面成为了我国工程项目信息化建设发展的重要制约因素。文章旨在通过探究工程项目管理信息化建设的发展过程,以具
化石能源在社会不断发展中起着至关重要的作用,而且人们对化石能源的需求也在逐年增大。但是,化石能源的大量消耗引发的环境污染以及其本身储量有限等问题逐渐凸显出来。因此
本文从虹桥国际机场公司在虹桥机场扩建工程运行准备过程中的工作实践出发,回顾了运行管理方在项目建设过程中进行建设参与的过程,从建设参与的意义、制度保障、设计阶段参与
我国夏热冬冷地区冬季存在供暖需求,常采用对流空调。但其冬季室内供暖热环境不理想,有提升热舒适的同时不大幅增加能耗的需求。辐射地板营造的室内热环境比对流空调舒适性更
近年来,随着生态文明理念的提出,国家对林业的重视程度逐年升高,林业生产活动逐渐增多,林业用地进一步增加。森林资源具有多方面作用,不仅可作为生产活动的物质资源,作为原材
电商的蓬勃发展推动了物流业的迅猛前行,车辆路径问题(Vehicle Routing Problem,VRP)作为物流过程中重要的优化问题,发挥的经济和社会价值越来越大。但是随之而来的高退货率问题对物流公司提出了更高的逆向物流要求,也成为小包裹运输公司发展的瓶颈。此外,在越来越注重客户体验的时代背景下,如何建立与客户之间的牢固关系,也是公司占据竞争优势的关键。集配一体化车辆路径问题(Vehicle