【摘 要】
:
强化学习在信息论、机器人、自动控制与无人驾驶等领域已经取得了非常出色的应用成果。通过对强化学习的不断深入研究,部分强化学习算法被证明具备一定解决复杂问题的能力。而强化学习算法往往面对复杂多变的应用场景,算法的稳定性直接影响了算法的实际运行结果。目前,对强化学习算法的稳定性评估已经取得了较好的研究成果。现有的工作大多通过对算法施加不同种类的算法攻击与修改算法超参数来完成算法稳定性的评估。但上述工作的
论文部分内容阅读
强化学习在信息论、机器人、自动控制与无人驾驶等领域已经取得了非常出色的应用成果。通过对强化学习的不断深入研究,部分强化学习算法被证明具备一定解决复杂问题的能力。而强化学习算法往往面对复杂多变的应用场景,算法的稳定性直接影响了算法的实际运行结果。目前,对强化学习算法的稳定性评估已经取得了较好的研究成果。现有的工作大多通过对算法施加不同种类的算法攻击与修改算法超参数来完成算法稳定性的评估。但上述工作的关注点并非算法运行过程本身,而是更改了算法运行的外部与内部环境,并未对算法本身正常运行训练过程进行稳定性度量。针对以上不足,本文基于强化学习主流的A3C算法提出了两种稳定性评估方法,主要研究内容和贡献如下:(1)针对有限状态空间场景提出了基于时间基准的稳定性静态评估方法。通过对有限状态空间进行完整表征,根据五种采样间隔实现对训练过程中动作概率偏差矩阵偏度和差分矩阵稀疏度的数据采样,并对偏度向量与稀疏度向量进行不同!值的综合正则化计算,得出算法的稳定性"评分,以此作为稳定性的数学度量。最终与基于专家经验的模型真实收敛情况进行排序结果对比,得出稳定性静态评估的准确率。(2)针对无限状态空间场景提出了基于差异系数的稳定性动态评估方法。利用等间距采样将无限状态空间转化为有限状态空间,在五种不同初始采样间隔下,观察相邻采样时刻动作概率偏差矩阵差异系数的变化情况,动态改变采样间隔完成数据采样。根据稳定性"评分与模型真实收敛情况的对比结果,得出动态评估的准确率。针对上述所提出的方法,本文采用Gym-Maze迷宫寻路游戏与Mountain Car小车爬坡游戏进行实验验证。在实验过程中,本文设置多组学习率与agent数,结合不同!计算值,综合对A3C算法进行稳定性评估,得到对应算法稳定性最佳的一组学习率与agent数。在静态评估工作中,稳定性评估最高准确率达到50%;在动态评估工作中,稳定性评估准确率最高达到83.3%,较好地完成了本文的研究目标。
其他文献
历届奥运会的成功组织都表明交通管理至关重要。针对冬奥会开闭幕式散场观众的交通组织需要解决如下问题:预测观众人数及其时空分布、规划临时交通设施,设计散场观众流线,配置公共交通运力资源。从而使散场观众能够快速疏散至各个交通枢纽,缩短疏散时间。本文依托国家重点研发计划专题任务“北京冬奥会运行指挥决策技术研究”,对冬季奥运会开闭幕式场馆周围相关的交通情况进行了深入的调查并建立相应的观众散场组织方案。首先,
随着当下社会的进步,铁路与公路平面交叉处的道口的通行压力逐年增加,本文分析了当前铁路道口预警防护系统在列车信号检测部分存在的抗干扰能力差、存在误报、线缆传输成本高等问题,结合目标检测的相关发展成果,利用视频检测的方式,提出了基于深度学习的YOLOv4列车检测算法,通过对道口列车进行实时性的检测来为道口预警系统提供一个精准的列车检测信号,从而提高整个预警防护系统的精准度,降低事故发生率,保证通行人员
现阶段组合结构抗剪连接件中应用最为广泛的是栓钉连接件,而目前对于轻骨料混凝土栓钉连接件的研究成果存在诸多空白和不足,成为了将钢-轻骨料混凝土组合结构应用在实际工程中的阻碍。本文通过推出试验和有限元数值模拟相结合的方法对轻骨料混凝土栓钉连接件的力学性能进行较为系统的研究。针对混凝土种类、混凝土强度、栓钉直径、箍筋的布置形式这4种影响因素设计了6组共12个推出试件,并对其破坏模式、荷载-滑移曲线、抗剪
随着互联网信息技术的快速发展,网络上的数据也越来越多,当前计算机技术的发展阻碍不再是信息不足,而是信息过载。在这种情况之下,智能问答系统应运而生,此类系统被设计搭载在不同的使用场景以解决信息过载的问题,提供给用户一个准确答案。基于特定场景的智能问答系统采用Java开发,使用Spring Boot、My Batis等作为实现框架,并使用My SQL、Redis等数据库技术存储数据,同时,使用MVC模
当前,互联网能够不受空间限制地进行信息交换的能力,使得人们对互联网的需求不断增加。但传统互联网在发展过程中一直存在信息覆盖不全的弊端,不能满足用户任意时间、任意地点的接入需求,因此不受天气环境因素影响的天空地网络出现在人们的视野里,该网络具备全球无缝的常态化覆盖能力。然而传统互联网的IP地址双重身份存在的诸多问题并不能很好的适应天空地网络,为此,国内外许多研究学者都对该网络架构做出了改进,其中较为
基于固态纳米孔搭建的传感平台已经在多个研究领域有着重要应用,并取得了重要进展,如生物传感、分子测序、海水淡化等领域。固态纳米孔作为其核心部分,广受科研人员的关注。随着纳米孔需求量的激增,采用廉价的手段进行大规模的纳米孔制备技术成为了研究热点。本文针对以上需求,对阵列化制备固态纳米孔的技术方案进行了深入研究,并对制备方案进一步改进,在满足成本与效率相协调的同时增加了制备的可控性。在目前常见的纳米孔制
随着大数据时代的快速发展,运用大数据技术学习数据中的有用信息至关重要。推荐系统为解决信息过载提供了有力的支撑,但是当新用户或新项目出现时还存在冷启动问题,因此,学术界提出跨领域推荐技术,通过学习辅助领域的用户偏好或项目知识表示,来解决目标领域的数据稀疏和冷启动问题,提高目标领域的推荐性能。然而目前的跨领域推荐模型在学习领域间的项目关联关系以及共性知识提取方面还有很大的提升空间。近年来,图神经网络在
近年来,城市轨道交通伴随着我国经济的快速增长,进入了迅猛发展建设时期,已成为城市的能耗大户。许多专家学者通过研究城市轨道交通列车自动运行控制系统(Automatic Train Operation,ATO),并提出不同的优化方法来降低列车运行产生的牵引能耗。优化方法的研究主要集中在优化列车节能运行的目标推荐速度曲线及跟踪速度曲线上,本质上属于离线优化。而在实际的地铁运营中,列车所处的运行环境和运行
列车制动过程引起的热疲劳损伤严重威胁列车的运行安全,新型Mn-Si-Cr系贝氏体钢具有良好的综合性能,有望成为新型车轮材料的良好替代。但是,在实际线路服役测试中,新型贝氏体车轮也存在这种热疲劳损伤现象,而目前鲜有针对贝氏体钢热疲劳性能方面的研究。本文针对Mn-Si-Cr系贝氏体车轮钢,研究了其热疲劳损伤规律及机理,利用有限元仿真软件探究了列车闸瓦制动过程中车轮内部温度场,应力场分布规律及车轮内部温
股票趋势预测旨在预测公司股票的未来趋势,从而让投资者规避风险,获取比较大的收益。由于股票趋势预测方法的研究具有十分重要的理论意义和实用价值,所以长期以来一直吸引着学者们的关注。但是,股票市场瞬息万变,影响股票走势的因素有很多,如股票价格的历史曲线图、金融新闻以及社交媒体评论等,导致趋势预测的难度增加。随着深度学习和自然语言技术的飞速发展,学者可以充分利用这些新技术从股票价格数据和金融新闻、社交媒体