基于强化学习的智能汽车自主换道方法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户：nocloud

【摘要】

：

【作者】

：

周斌

【出处】

：

吉林大学

【发表日期】

：

2020年08期

【关键词】

：

智能汽车自主换道强化学习深度确定性策略梯度

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,伴随汽车保有量增长所带来的交通拥堵、道路安全等问题,汽车智能化已经成为整个汽车行业未来发展的重点研究方向。当前智能车的研究主要基于规则设计的方法,该方法通过先验的“专家知识”建立车辆驾驶过程中的行为规则,并在特定的场景下测试验证。但对于一些复杂场景或突发事故,该方法难以通过测试验证。于是为了应对更加复杂的场景,借助智能体通过与环境不断进行交互的自学习智能控制算法,实现智能车具有在复杂场景下的自主应对能力。强化学习(Reinforcement learning,RL)是一种典型的经验驱动、自主学习方法,可以使智能体在与环境的交互中通过不断地“试错”、反馈学习以寻找完成任务的最优策略,用于求解可以建模为马尔科夫决策过程的实际工程问题。同时,深度强化学习使得深度学习(Deep Learning,DL)的感知能力与强化学习的决策能力相结合形成优势互补,为复杂问题的感知决策提供了新的解决思路。同时,使其成为解决智能车自主换道的可行性方案之一。本文依托国家重点研发计划“自动驾驶电动汽车可靠性与环境适应性评估技术与系统应用”(编号:2018YFB0105205),提出了基于强化学习的智能车自主换道控制方法。在智能体感知端以雷达检测车道边界线、周围车辆的距离共同构成状态空间,形成以雷达检测数据为输入的智能车辆自主换道控制“端对端”强化学习框架。通过Python搭建了满足本文需求的强化学习自主换道仿真环境,并在该环境下完成了智能车自主换道横向和横、纵向综合控制下的训练及验证。围绕本文的研究任务目标,主要进行了以下研究工作:首先,提出了一种基于雷达检测数据为输入的智能车辆自主换道控制“端对端”强化学习框架。在搭建的仿真环境下,通过激光雷达检测车道边界线以及周围车辆的距离信息共同组成车辆换道的可行驶区域,并将其直接作为强化学习状态空间输入的原始数据。其次,利用Python搭建实验仿真环境并通过Pyglet实现仿真界面可视化。通过对比当前主流强化学习仿真平台,为了便于从环境中获取训练数据搭建了自主换道强化学习仿真实验环境。根据自动驾驶场景要素划分,选取换道过程中的道路几何信息、道路运动目标作为研究主体。环境中智能体通过二维平面内两直线交点的基本理论方法求解检测到车道线和周围车辆的距离。通过加入运动学自行车模型满足了智能体的几何运动约束,此外,还包括了对智能体异常行为检测等内容。再次,通过自定义的换道任务目标、任务目标切换逻辑以及奖励函数中对综合考虑安全性、舒适性和高效性的设计。采用深度确定性策略梯度(DDPG)算法,DDPG算法中演员-评论家网络结构采用全连接神经网络决策输出连续动作值。状态空间设计采用了仿真环境中激光雷达获取场景中智能体到周围车辆和车道边界线的距离值作为训练数据。动作空间采用连续型的方向盘转角和纵向加速度作为决策动作输出。奖励函数方面,在安全性中考虑了避免车辆碰撞、与前车保持固定车距,舒适性中考虑了车辆方向盘角速度和加加速度jerk值,高效性中考虑了换道时刻和换道最低速度限制。最后,针对城市自由交通状态下的换道问题,提出了强化学习在车辆横向控制中考虑换道时刻的自主换道方法。实现智能体在换道过程中对于换道时刻选择的拟人化和各性能的要求,同时也完成了自动驾驶过程中车辆自主换道由车道保持、自主换道和换道后车道保持的完整阶段。针对城市道路复杂交通状态下的换道问题,提出了强化学习在车辆自主换道横、纵向综合控制方法。在横向控制基础上加入对纵向速度的控制,在奖励函数的设计中充分考虑了智能体自主换道过程中的安全性、舒适性和高效性,在动态场景中完成智能体训练。实验验证表明,智能体在横向不同车速下能够在换道时刻上体现不同类型驾驶员驾驶风格的差异性,在横纵向控制不同车速、路段车流不同平均车速下具有较好的泛化能力,且基于DDPG的模型和设计的奖励函数能够实现换道过程中较高安全性、舒适性和高效性要求。

其他文献

2019年男篮世界杯世界八强与中男篮后卫阵地进攻技术运用特征的比较研究

随着世界篮球的高速发展,对运动员的技术水平有了更高的要求,后卫球员作为球队的大脑与发动机,在身体不占优势的情况之下完善和娴熟的技术动作运用就是其为球队取得胜利的重要保障。第18届世界杯中国男篮后卫球员拼抢积极突破犀利有着不俗的表现,但与世界强队后卫仍有差距。本研究运用文献资料法、录像观察法、数理统计法、逻辑分析法等科研方法并结合2019年男篮世界杯比赛录像,从定性和定量两方面对中国男篮与世界八强后

学位

2019年男篮世界杯男篮后卫阵地进攻技术

一个医疗设备经销商如何“撂倒”八名院长?

<正>陕西省咸阳市检方近日查办了一起医疗系统腐败大案,咸阳、安康、汉中3市6家公办医院负责人涉案,其中包括8名正副院长和4名科室负责人,他们涉嫌在医疗设备采购中收受贿赂,

期刊

医疗设备医院负责人基建工程医疗腐败收受贿赂科室负责人人民医院院长中标价格科室主任医

警察执法中的权利告知语言检视

法律设定了权利告知程序,警察履行了权利告知义务,并不意味着当事人享有的权利就得到了保障。只有当事人真正理解自己享有权利的内容,才可能在公安机关即将展开的执法活动中

期刊

警察执法权利告知语言书面告知语言口头告知语言

基于强化学习的智能汽车自主换道方法研究

其他学术论文