【摘 要】
:
中国高速公路里程已经突破14万公里,稳居世界第一,但与此同时交通事故率也高居不下。合流区的交通环境复杂,易出事故,是高速公路车辆行驶中的一大难点。合流区的换道决策研究,对早日实现L3级以上自动驾驶,缓解交通拥堵,降低交通事故发生率以及改善道路交通的生态环境具有重要意义。基于规则的决策算法虽然能够保证决策的实时性,但在遇到规则库之外的驾驶场景时容易崩溃,无法应对交通环境的变化和不确定性。深度强化学习
论文部分内容阅读
中国高速公路里程已经突破14万公里,稳居世界第一,但与此同时交通事故率也高居不下。合流区的交通环境复杂,易出事故,是高速公路车辆行驶中的一大难点。合流区的换道决策研究,对早日实现L3级以上自动驾驶,缓解交通拥堵,降低交通事故发生率以及改善道路交通的生态环境具有重要意义。基于规则的决策算法虽然能够保证决策的实时性,但在遇到规则库之外的驾驶场景时容易崩溃,无法应对交通环境的变化和不确定性。深度强化学习作为强化学习领域里程碑意义的突破,能够应对具有大量动态性和不确定信息的交通环境,在复杂环境中顺利做出合理决策。本文作者选用深度强化学习作为换道决策算法,研究在高速路合流区换道的自动驾驶决策,针对现有换道决策研究中简化环境车辆运动方式和对其他交通参与者造成的影响考虑不足的问题进行了研究和改进,主要研究内容如下:(1)环境车辆自主性换道决策模型研究。用智能驾驶员模型对纵向跟车决策建模,用最小化由变道引起的整体制动模型对横向换道决策建模,使得环境车辆具有独立的行驶目标,不受限制的机动(加速、减速、换道等)行为,并在一定范围内随机选择起始位置和目标车速,能够与主车产生积极的相互作用,最大程度还原真实的换道决策场景。(2)搭建虚拟训练环境,设计底层控制器。根据中国交通相关的法律法规,设计了基础的合流区(包括加速车道形式,车道长度等),确定了道路通过规则。权衡实验需要和实际条件,对车辆运动学进行建模,采用基于PID控制的纵向控制和横向控制方法。(3)换道决策算法研究。基于深度强化学习理论和对换道行为的马尔科夫决策过程建模,建立了基础的深度Q网络决策模型和更先进的竞争网络决策模型。考虑换道行为对其他交通参与者的影响,提出了保持右侧车道行驶和换道对后车速度影响两个新的奖励函数。对两种决策网络进行仿真训练,结果表明竞争网络决策模型相比于基础的深度Q网络决策模型有更高的换道成功率,在所有速度区间实现了超过80%的换道成功率;在对新增奖励函数有效性的验证中,带有新奖励函数的决策网络在后车速度影响和换道次数两个指标上有明显的改善;最后,对经过训练的竞争网络进行三方面的测试,其中在智能车速度变化的测试中,全部实现超过90%的换道成功率;环境车辆数量变化的测试中,决策网络在不同车辆环境中的换道成功率都超过95%,且在6辆车的环境中成功率超过99%;环境车辆驾驶风格变化的测试中,换道成功率均超过98%。通过以上仿真和测试,充分证明了基于深度强化学习的决策网络处理换道决策问题的优秀性能以及应对不确定环境的强大适应能力。
其他文献
基于NiOx空穴传输层的反型钙钛矿太阳能电池(PSCs)具备制备工艺简单、制备所需温度低、成本低等优点。近年来,NiOx基PSCs的功率转换效率(PCE)突飞猛进,达到20%以上。但是,一些典型修饰掺杂材料对PSCs的修饰原理相对简单,限制了NiOx基倒置PSCs的性能提升。此外,PSCs在高湿度、高温和紫外线照射环境下结构不稳定,容易分解。本文以基于Sr@NiOx(即掺入少量Sr离子的NiOx)
供应链,顾名思义,是在生产和销售商品的环节中,供应商、生产商、零售商以及消费者之间形成的链式结构。近年来,随着全球化的兴起,人们对供应链的公平性、隐私性、安全性和效率的要求显著提高。然而,供应链在多个方面仍存在一些问题,比如在信息流中,上游企业和下游企业对商品的需求量与销售量等信息的了解不对称;在商品的流通过程中,消费者买到质量不合格的商品难以追溯其源头企业;以及在资金流中,上游企业和下游企业之间
本文主要研究了圆柱形图,即路和圈的笛卡尔乘积图(Pm×Cn)的最多叶子生成树和最大不可分独立集问题.第一章介绍了最多叶子生成树、最大不可分独立集、最小连通点覆盖问题的研究现状.第二章研究了圆柱形图(Pm×Cn)的最多叶子生成树问题.根据生成树的特点,给出了Pm×Cn(m=2,3)最多叶子生成树的叶子数目.再根据生成树中2-度点和3-度点的数目,得出了Pm×Cn生成树叶子数目的上界.最后通过构造给出
尽管量子色动力学(QCD)被公认为描述强相互作用的基本理论,但夸克禁闭使得人们很难直接使用该理论进行中低能区的解析计算。为此人们发展了数值的格点QCD进行非微扰计算,但目前在数值计算时需采用大于物理值的夸克质量,计算的结果需要进一步外推至物理值区域,因此仍需系统自洽的解析结果进行比对。这就使得QCD的低能有效场论——手征微扰理论,进入舞台,并在对介子系统的研究中取得了极大的成功。但是这个理论在运用
作为下一代云计算范式,无服务器计算将云资源抽象为函数(functions),由云服务商负责配置、管理、部署、缩放用户应用所需的函数资源,并提供百毫秒级别的计费粒度;而用户则专注于程序编写,仅需为程序实际运行占用的时间及资源付费。基于上述高效率、低成本等优势,利用无服务器计算进行分布式深度神经网络(Distributed Deep Neural Network,DDNN)训练正成为一大趋势,用户无需
基于图像非局部的相似块的稀疏性,核范数在图像处理各个领域得到了广泛的应用.然而,核范数对不同大小的奇异值同等对待,因而可能会导致求解的结果与最优的结果相差甚远.事实上,往往只需图像较大的奇异值就能重建图像,较大的奇异值蕴含了重要的图像信息,而较小的奇异值则很可能含有噪声信息.为了尽可能的避免核范数所产生的局限性,对不同大小的奇异值应该采用不同的处理方式.非凸正则化函数在稀疏优化领域有着重要作用,其
在小学"单元-课时"教学中,教师要对"单元""课时"的关联作辩证性考量,对"单元-课时"教学作功能性探析。实践中积极探寻"单元-课时"的实施路径,以大问题、大任务、大主题等为抓手,积极发掘相关资源、素材等,让学生更主动、更积极、更富有个性地学习。在这个过程中,有效地提升学生的数学学习力,发展学生的数学核心素养。
近年来,针对低温工业烟气氮氧化物脱除技术的研究受到广泛关注,其中新型低温SCR催化剂的开发是该技术的关键,新型SCR催化剂的主要特点是活性温度窗口宽和低温下抗硫抗水性强。本文针对丰富的废弃锰矿区含锰土壤资源,研究了采用废弃锰矿区含锰土壤掺入活性物制备低温SCR脱硝催化剂工艺和催化剂脱硝性能,开发了一种廉价高效的Ce/Mn-S低温SCR脱硝催化剂,实现了锰矿区废弃土壤的资源化利用。主要研究内容和取得
强化学习,特别是近些年兴起的深度强化学习在很多领域中都成功地获得了应用。但与此同时,由于强化学习中安全性保障机制的缺乏,人们对其安全性的担忧和需求也日益强烈,使得强化学习难以应用于智能安全攸关系统中。在智能体所处的环境中充满了各种不确定因素,仅仅依靠最大化长期回报的策略学习方式难以应对系统中的各种风险。此外,环境中的信息扰动也为智能体的安全决策带来了很大的干扰,威胁着智能体和其所处的物理环境的安全
近些年来,随着无人机集群的蓬勃发展,无人机集群已被广泛应用于军事、民用领域。在军事领域,无人机集群已经逐渐替代有人机执行作战任务;在民用领域,无人机集群在无人机灯光表演、农药喷洒、快递投送、电力巡检等方面逐渐起到重要作用。目前在全世界范围内,出现了多起无人机集群恐怖袭击事件,无人机集群带来的安全问题需要引起人们高度的重视。本文从单无人机传感器、无人机通信链路、无人机集群编队方式、无人机自组网这四个