论文部分内容阅读
随着互联网技术以及通信技术的飞速发展,车辆的智能化和网联化技术也在逐步提高,无人驾驶技术作为智能交通的重要部分,其研究也越来越成熟。目前,大部分无人驾驶汽车都使用传统的局部路径规划以及车辆控制算法,而感知、决策、控制作为独立的模块,不能保证高精度的时间同步以及空间同步,对于自动驾驶而言,上述三个模块结合的越紧密,自动驾驶的安全性和准确性越高。随着人工智能技术的发展,深度强化学习为复杂系统的序贯优化决策问题提供了另一种解决思路,本文基于深度强化学习对无人驾驶决策控制方法进行研究,在开源赛车模拟器中进行动态行车环境的安全性分析。本文的主要研究工作如下:首先建立了面向无人驾驶的强化学习框架,基于TORCS仿真环境返回的环境和车辆状态参数对强化学习算法中状态和动作进行定义。针对期望的驾驶表现,设计了面向无人驾驶的强化学习算法奖励函数,并设计了训练过程的终止条件。根据深度确定性策略梯度算法原理和无人驾驶环境的状态、动作需求,分别建立了策略、价值、目标神经网络,分析了上述网络的训练与参数更新方法,搭建了深度强化学习算法的整个网络框架。根据车辆行驶过程中所处的状态对样本进行分类,设计了经验缓存池分离的训练方法。针对探索策略初始随机噪声较大,导致存在大量无效探索的问题,提出了改进的训练探索策略。通过“引导”的方式,使车辆偏向于正确方向探索的概率较大。以最小化跟踪误差和航向误差为目标改进了车辆的车道保持探索策略,使得训练初期,车辆快速学习到正确方向的转向策略,基于人工势场法对车辆超车避撞工况的探索策略进行改进,减少低回报探索过程。在开源仿真平台TORCS上对改进的深度强化学习算法进行仿真验证,仿真结果表明,改进的探索策略避免了局部最优情况,且增加了样本池中高回报样本的比例。经验池分离方法解决了样本分布不均,导致神经网络训练不稳定的问题。