论文部分内容阅读
自动驾驶技术致力于解决交通拥堵并减少交通事故,近年来发展迅速。其中一个关键的开放问题是,根据周围交通状况选择有效驾驶行为的行为规划策略。目前的大量技术实现都以有限状态机作为全场景的整体策略模型,但是有限状态机内部模块之间存在强耦合,需要专业知识手动设计,步骤繁琐,不利于更新和维护。而最新的分场景研究方法则往往以单个强化学习智能体面向整个场景进行训练,存在状态空间维度高,训练难度高,基于神经网络的策略无安全保障等问题。基于此,本文提出使用模块化程度更高、可扩展性更强的行为树模型代替有限状态机作为行为规划策略的主模型。行为树的结构与子节点设计结合遗传编程算法和强化学习算法,以适应不同场景的策略规划需求。具体而言,本文的主要工作内容有:1)在CARLA模拟器中构建包含行人和其他障碍车辆的3种不同交通场景——带有信号灯的十字交叉路口、多车道直行路段和环岛路段,并建立行为树策略所需的基本条件节点和动作节点;2)通过分析行为树的冗余节点,规范化行为树的结构,以缩小遗传编程的搜索空间,并在此基础上设计实现加入了dropout遗传操作和哈希集合的遗传编程算法;3)设计并训练加入了深度Q学习(Deep Q-Learning,DQN)的行为树策略,有针对性地解决环岛汇入这一复杂场景的行为策略设计。最后,整合分场景中的子策略形成完整行为规划策略的行为树模型。根据在CARLA模拟器中各场景的实验测试结果,证明使用行为树构建自动驾驶行为规划策略,能够有效地与遗传编程算法和强化学习算法相结合,达到降低手动设计成本和强化学习训练难度,增强强化学习智能体安全性的目的。