【摘 要】
:
自动驾驶在不久的将来将会改变人们日常生活中的交通方式,大量的工作已投入到自主驾驶中的决策和运动控制算法。目前,强化学习(Reinforcement Learning)一直是应用于这方面的
论文部分内容阅读
自动驾驶在不久的将来将会改变人们日常生活中的交通方式,大量的工作已投入到自主驾驶中的决策和运动控制算法。目前,强化学习(Reinforcement Learning)一直是应用于这方面的主要策略。但是,若将强化学习应用于自动驾驶,其在进行探索时所采取的行动可能造成安全隐患,而且该算法的收敛速度可能太慢。因此要想将强化学习走出实验室并应用于实际的车辆自主学习中的话,迫切需要解决强化学习中的安全问题。论文提出了一种应用于自动驾驶的安全强化学习算法(Safe Reinforcement Learning),通过添加约束来确保算法学习过程中的安全性。论文提出带约束的策略优化算法(CPO:Constrained Policy Optimization),该算法的关键在于在代价函数中引入条件约束。CPO算法基于Actor-Critic算法框架,通过设置硬约束条件降低策略更新的大小来确保策略更新过程中的安全性。论文主要工作内容包括CPO算法的理论证明和推导,实际应用以及仿真结果分析。论文在多种地图上比较了提出的算法,评估和分析了算法在不同地图上的安全性和稳定性。同时,论文也比较了CPO算法和传统强化学习算法之间的差别,证明了CPO算法在学习的效率性和安全性上都优于传统的算法。论文研究结果期望能够为安全强化学习的实际应用提供依据。
其他文献
自16世纪中叶起,法国在长达一个世纪左右的时间里,在造园方面。既受到意大利造园的影响,同时也经历了艰难的发展道路。直至17世纪中叶法国出现了宫廷造园家勒诺特,才摆脱了
本文以不同的制备工艺合成了具有不同化学计量比的Ni(2+x)Mn(1-x)Ga与Mn Co Ge样品,通过对磁热效应的研究,探究了不同的合成方法与合成条件对磁热效应的影响。主要研究成果如
为探寻京津风沙源治理工程实施以来该区域环境时空变化情况,本文基于2001年至2017年时间分辨率为月的时空序列数据,将考虑时空因素贯穿整个论文的分析中。采用了时空克里格进
超级电容器作为新型储能装置,具有循环寿命长、功率密度高及操作安全等优点,而限制其广泛应用的关键问题为其能量密度相对较低。电极材料的结构和组成对超级电容器性能有至关
药理学是高职高专药学专业的一门基础课程,也是医学和药学的桥梁学科。学生通过药理学实验进行实践性环节的学习,了解获得药理学理论知识的科学途径,掌握药理学的基本知识和规律,并逐渐培养科学精神、实践能力和创新能力,为今后从事创新型的工作打下基础。本研究对目前省内高职高专院校药学专业的药理学实验教学的现状进行了调研,发现部分高职高专院校药学专业药理学实验教学固守“以验证理论课堂教学为中心,以教师讲授为主体
电影片名的翻译对于影片的跨境推广具有重要意义,为进一步推进对片名翻译的研究,概述了国内学者对该领域的研究现状,阐述了忠实的含义及其不同维度,继而结合直译、意译、改译
随着国家经济的进一步发展,市场逐步发展和扩大,建筑工程项目也随之增加。同时,也加速了建筑市场的变革。在激烈的市场竞争中,单项目管理已经不能满足建筑公司的市场需求,而
基于公司规模和服务内容的持续壮大和发展,来自各维度的压力愈发大。近几年国家对劳务派遣及其行业开展进行了严格界定和规范,约束了劳务派遣的用工模式和用工总量;面对劳务派遣、人力资源事务流程外包等新型用工模式的持续成熟发展,愈发多的行业竞争者持续出现,行业竞争变得逐渐激烈;为了给予更公平公开公正的竞争氛围,国家规范更新招投标法律法规,用招投标模式代替人际优化长久不变的合作联系等等。长春外企服务有限公司处
歧义是一个语言表达式有一种以上意义的特殊语言现象。就是这种意义未定的独特性使得歧义在语言实践中具有极强的生命力。在文学作品、广告、修辞格、政治言辞、法庭辩论、幽