论文部分内容阅读
自动驾驶是目前人工智能领域的研究热点之一,而决策控制技术是自动驾驶的核心技术,是保证自动驾驶车安全性的重要因素,对它进行研究具有重要意义。如何在各种场景下快速、准确地做出决策是自动驾驶决策控制技术中的关键问题。作为人工智能领域的核心技术之一,深度强化学习(Deep Reinforcement Learning,DRL)是解决自动驾驶决策控制问题的有效方法,通过智能体与环境交互,并根据环境的反馈进行驾驶策略的学习,从而实现自主决策的目标。本文主要面向端到端的自动驾驶决策控制技术的需求,研究了基于深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)的自动驾驶决策控制方法。针对基于DDPG的自动驾驶决策控制方法存在初始阶段策略较差、无法有效学习到人类驾驶技巧以及无法适用于无梯度场景等问题,提出了相应的解决方法,本文具体研究贡献如下:1.针对DDPG算法初始阶段策略较差,以及无法有效学习到人类驾驶技巧的问题,提出了一种结合了专家经验的DDPGwE(DDPG with Expert)算法。DDPGwE算法使用专家经验对演员网络进行预训练,使智能体具有一些“先验知识”,并且在演员网络中加入LSTM模块,提高自动驾驶车对未来情况的预判能力。同时,对评论家网络的损失函数进行了改进,使得专家经验可以作为评论家网络对演员网络策略评价的辅助引导。实验结果表明,DDPGwE算法学习到了更好的策略,学习速度较快,具有更好的泛化能力和鲁棒性。2.针对使用奖励值引导的DDPG算法存在的奖励函数定义困难的问题,本文提出了结合了生成对抗模仿学习的DDPG算法(Generative Adversarial DDPG,GADDPG)。GADDPG算法利用专家经验,通过生成对抗的方式,直接从专家经验中学习策略并获得奖励值,替代了原有DDPG算法从环境获取奖励进行学习的方式。实验结果表明,GADDPG算法能够很好的学习到人类专家的策略,学习速度较快。3.针对现有的深度强化学习算法无法适用于无梯度场景的问题,本文提出了一种无梯度的协同进化强化学习(Co-evolutionary Reinforcement Learning,COERL)算法。COERL算法使用进化的方式设计神经网络结构,并且用协同进化算法优化神经网络权重,解决了无梯度场景下的参数优化问题,提高了自动驾驶车的策略学习能力。实验结果表明,COERL算法相较于深度强化学习算法具有竞争性,在某些任务上其性能优于其它的深度强化学习算法。