基于深度强化学习的单智能体自动驾驶控制研究

来源 :四川大学 | 被引量 : 0次 | 上传用户:leesy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着汽车保有量快速增长,随之而来的交通问题也日趋严重。自动驾驶作为一个有前景的解决方案,在迫切的社会需求和高度发展的人工智能技术共同催化下快速成长。近年来,强化学习在不同的控制决策任务中表现优异,已有研究将强化学习算法用于汽车自动驾驶控制,通过智能体与环境交互,并根据环境的反馈进行驾驶策略的学习。柔性演员评论家(Soft Actor-Critic,SAC)算法作为新颖的强化学习算法,引入了最大熵的概念,使模型效果更平稳,智能体探索能力更强,为实现更优秀的自动驾驶连续控制方法提供了可能性。本论文基于SAC提出了两种改进算法,分别针对算法中的温度系数超参数调节及时间效率进行优化;并对强化学习自动驾驶研究中较少关注的泛化能力和拥塞环境处理能力,设计并实现了针对性的训练方法。首先,针对SAC算法需要人工参与调节温度系数α来间接调节策略熵值以适应不同的环境探索这一现状,本论文观察到当前的SAC算法中α参与到策略优化,猜测α可能自行调节以鼓励智能体最大化奖励,并通过实验证明了这一猜想,以此提出了一种完全自动熵调节的SAC算法。实验证明,该算法在免去人工参与α的调节后,与原SAC算法性能接近。随后,本论文利用SAC算法中策略函数与值函数的内在联系,提出从策略函数反向地推导出状态动作值函数,避免了显示地建立状态动作值函数,同时省去了根据状态动作值函数优化策略的步骤,以此简化了SAC的函数结构和算法步骤,提出了一种无确切状态动作值函数的SAC算法。实验表明,在不降低SAC样本利用率的前提下,改进算法能有效减少算法的训练时长。最后,针对强化学习自动驾驶中的泛化能力和拥塞环境处理能力,本论文设计并实现了一种基于强化学习的多场景拥塞环境自动驾驶控制方法。在智能体学习环境的设计上,基于开源自动驾驶研究平台,构建了多个驾驶环境,分别对应4种常见的道路场景(包括急弯、匝道、交叉路口和环道),并为所有驾驶环境加入干扰车辆以模拟拥塞的驾驶环境。在智能体的训练策略上,为了针对性地提高智能体在多个场景的泛化能力,本论文在传统的单场景训练的基础上加入了多场景混合训练方法;在自动驾驶智能体的训练算法方面,采用包括本文提出的两个SAC改进算法在内的4个强化学习算法进行自动驾驶智能体的训练。实验结果表明,单场景训练时,本文的改进算法与原SAC算法相比表现更为稳定,尤其在多弯道路表现优异;使用多场景混合训练方法后,自动驾驶智能体提升了应对多场景陌生环境的泛化能力,同时也兼顾与其他社会车辆交互的拥塞处理能力,其中SAC算法综合表现最佳。
其他文献
信号调制识别在电子战、通信侦察、雷达侦察、无线电频谱监测与管理和链路自适应等领域有着重要的应用。但如今信道环境越来越复杂且信号调制方式不断增多,如何高效且准确地完成复杂环境中信号调制识别是当前通信各个领域亟待解决的难题。本文以某电子对抗部队非协作通信为背景,针对信号调制识别中传统算法识别性能低、计算复杂度高等问题,基于深度学习对AWGN信道和Rayleigh衰落信道中信号调制识别关键技术进行研究。
行人实例分割是对图像进行实例级和像素级处理的技术,是计算机视觉领域中一项重要的研究任务。当前的行人实例分割存在分割精度不高、缺乏对分割后的行人实例效果检验等问题。本文针对此问题展开研究,主要工作和创新点如下。1.针对当前行人实例分割精度不高的问题,提出了一个行人实例分割与提取网络。网络基础部分,采用单阶段网络设计结构,使用特征金字塔网络提取特征;网络主干部分,分为行人检测分支和行人实例分割与提取分
肺癌是中国发病率和死亡率最高的癌症,恶性肺结节的早期筛查能够显著降低肺癌的死亡率。胸部计算机断层扫描(Computed Tomography,CT)图像能够以非侵入的方式捕获肺结节的异质性,是目前肺癌早筛的常规方法。精准的肺结节定性极其困难,其不仅是因为医生在高强度的工作负担下无法保持高度集中来做出准确的判断,而且还在于人眼难以捕捉到发生在CT值细微变化的肺结节异质性。肺癌的计算机辅助诊断(Com
电子计算机断层扫描(CT)技术可快速获取人体组织结构图像,得到的图像具有极高的空间分辨率以及清晰度。CT技术目前已经成为临床诊断的重要方式,为临床医生对疾病诊断和治疗提供了强有力的帮助。随着CT技术的广泛使用,检测时产生的辐射对受检者所造成的伤害不容忽视,过量CT辐射将严重损害受检者的身体健康。但是,降低CT检测的辐射剂量会导致CT图像出现噪声、伪影,引起图像质量下降。这些噪声、伪影经常掩盖细微但
近年来慢性非传染性疾病对人类健康的威胁日益增大。各类慢性病因其复杂的发病过程,很难确定疾病的发病时间。慢性病的早期筛查和确诊是公认的降低慢性病危害的有效办法,只有通过定期的体检来尽早发现诊断慢性病。伴随医疗信息化的建设不断深入,大部分医疗机构已经存有大量医疗健康数据。在这个前提下,逐渐成熟的人工智能技术为慢性病早期的筛查和诊断提供了有力的工具。近年来,针对各类慢性的研究逐渐增多。本文以体检数据为研
信息化技术和互联网的快速发展正深刻地影响着人民的生产与生活方式,我国社会正逐步朝着信息化社会迈进。根据第47次《中国互联网络发展状况统计报告》[1],截止2020年底我国的互联网普及率已达70.4%,人民的生产和生活与网络紧密相关。然而,在人们享受信息化与智能化所带来的便利同时,网络空间中所存在的安全问题是无法被忽视的。《2019年我国互联网网络安全态势综述》[2]中的统计数据显示,约有44.4%
针对公共场所中的特定事件的自动检测技术是保障公共安全的重要手段之一,也是推动社会智能化发展的重要技术之一。时空行为检测(Spatiotemporal Action Detection,STAD)就是在此需求下应运而生的自动化检测技术,常用于检测视频中特定的行为及其发生时所在的时空位置。时空行为检测中,用于检测如学校、监狱等特殊场所中打架斗殴等暴力事件的暴力行为检测(Violence Detecti
作为物联网技术中的重要组成部分,无线传感器网络技术已广泛运用于各领域。然而,传感器节点有限的电池容量制约了无线传感器网络的工作寿命。一旦传感器节点电池能量耗尽,会影响某区域的监控质量。因此,如何克服该约束并延长整个网络的寿命是一个研究的热点问题。当前,无线充电被视为延长网络寿命的一种有前途的解决方案。传统的无线充电技术是基于单路的充电范式。然而,这种一对一的充电范式存在扩展性不足和充电效率低下等问
来波方向估计(DOA)在电子侦察对抗、无线电频谱监测、移动通信、雷达、声呐等领域都扮演着非常重要的角色,是阵列信号处理方向中一个重要分支。在目前通信环境中,存在大阵列需求,在大阵列系统中,将会给传统来波方向估计算法带来巨大的挑战,面临着运算量大以及高精度取舍等问题。传统来波方向估计算法在实际环境的适应性较差,因为该类算法是基于数学表达式的一种算法,需要对环境做很多假设,当实际环境难以达到目标条件,
随着信息技术的高速发展,目标跟踪技术在军事和民用领域都展现出了不可取代的重要性。而在目标跟踪的过程中,无法避免地,处理程序会接收到错误的报告点信息或是误差较大的报告点信息,即杂波。这无疑会使处理程序得到错误的跟踪结果,造成虚警、漏警等常见问题。针对这些问题,相关领域的研究人员提出了一些有一定适用性的解决办法,但在复杂场景下,由于杂波种类繁多,计算机性能有限等各种问题,导致目前常用的杂波识别算法不能