论文部分内容阅读
近年来,伴随汽车保有量增长所带来的交通拥堵、道路安全等问题,汽车智能化已经成为整个汽车行业未来发展的重点研究方向。当前智能车的研究主要基于规则设计的方法,该方法通过先验的“专家知识”建立车辆驾驶过程中的行为规则,并在特定的场景下测试验证。但对于一些复杂场景或突发事故,该方法难以通过测试验证。于是为了应对更加复杂的场景,借助智能体通过与环境不断进行交互的自学习智能控制算法,实现智能车具有在复杂场景下的自主应对能力。强化学习(Reinforcement learning,RL)是一种典型的经验驱动、自主学习方法,可以使智能体在与环境的交互中通过不断地“试错”、反馈学习以寻找完成任务的最优策略,用于求解可以建模为马尔科夫决策过程的实际工程问题。同时,深度强化学习使得深度学习(Deep Learning,DL)的感知能力与强化学习的决策能力相结合形成优势互补,为复杂问题的感知决策提供了新的解决思路。同时,使其成为解决智能车自主换道的可行性方案之一。本文依托国家重点研发计划“自动驾驶电动汽车可靠性与环境适应性评估技术与系统应用”(编号:2018YFB0105205),提出了基于强化学习的智能车自主换道控制方法。在智能体感知端以雷达检测车道边界线、周围车辆的距离共同构成状态空间,形成以雷达检测数据为输入的智能车辆自主换道控制“端对端”强化学习框架。通过Python搭建了满足本文需求的强化学习自主换道仿真环境,并在该环境下完成了智能车自主换道横向和横、纵向综合控制下的训练及验证。围绕本文的研究任务目标,主要进行了以下研究工作:首先,提出了一种基于雷达检测数据为输入的智能车辆自主换道控制“端对端”强化学习框架。在搭建的仿真环境下,通过激光雷达检测车道边界线以及周围车辆的距离信息共同组成车辆换道的可行驶区域,并将其直接作为强化学习状态空间输入的原始数据。其次,利用Python搭建实验仿真环境并通过Pyglet实现仿真界面可视化。通过对比当前主流强化学习仿真平台,为了便于从环境中获取训练数据搭建了自主换道强化学习仿真实验环境。根据自动驾驶场景要素划分,选取换道过程中的道路几何信息、道路运动目标作为研究主体。环境中智能体通过二维平面内两直线交点的基本理论方法求解检测到车道线和周围车辆的距离。通过加入运动学自行车模型满足了智能体的几何运动约束,此外,还包括了对智能体异常行为检测等内容。再次,通过自定义的换道任务目标、任务目标切换逻辑以及奖励函数中对综合考虑安全性、舒适性和高效性的设计。采用深度确定性策略梯度(DDPG)算法,DDPG算法中演员-评论家网络结构采用全连接神经网络决策输出连续动作值。状态空间设计采用了仿真环境中激光雷达获取场景中智能体到周围车辆和车道边界线的距离值作为训练数据。动作空间采用连续型的方向盘转角和纵向加速度作为决策动作输出。奖励函数方面,在安全性中考虑了避免车辆碰撞、与前车保持固定车距,舒适性中考虑了车辆方向盘角速度和加加速度jerk值,高效性中考虑了换道时刻和换道最低速度限制。最后,针对城市自由交通状态下的换道问题,提出了强化学习在车辆横向控制中考虑换道时刻的自主换道方法。实现智能体在换道过程中对于换道时刻选择的拟人化和各性能的要求,同时也完成了自动驾驶过程中车辆自主换道由车道保持、自主换道和换道后车道保持的完整阶段。针对城市道路复杂交通状态下的换道问题,提出了强化学习在车辆自主换道横、纵向综合控制方法。在横向控制基础上加入对纵向速度的控制,在奖励函数的设计中充分考虑了智能体自主换道过程中的安全性、舒适性和高效性,在动态场景中完成智能体训练。实验验证表明,智能体在横向不同车速下能够在换道时刻上体现不同类型驾驶员驾驶风格的差异性,在横纵向控制不同车速、路段车流不同平均车速下具有较好的泛化能力,且基于DDPG的模型和设计的奖励函数能够实现换道过程中较高安全性、舒适性和高效性要求。