基于强化学习的数字冰壶策略研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:roytuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随2022年北京冬奥会日渐临近,我国提出的“三亿人上冰雪”目标逐步实现。冰壶作为冰上主要运动项目之一,不仅考验选手的投掷水平,更对选手投掷策略有较高要求。因在关键比赛关键壶的策略运用能力不足,我国冰壶队与世界强队有一定差距。本文所研究的冰壶策略可供运动员参考,提高技战术水平,因此冰壶策略的研究具有一定现实意义。本文在明确研究意义和项目背景基础上对国内外冰壶策略的研究现状进行了调研,通过理论分析、仿真训练以及实验对比,最终得到具有较强性能的数字冰壶策略。本文设计数字冰壶策略分为两个阶段进行,首先离线训练冰壶策略价值网络,然后结合训练好的策略价值网络进行在线蒙特卡洛树搜索算法改进。在没有冰壶策略数据集以及冰壶专业指导的情况下,为得到冰壶策略,本文基于强化学习方法使用蒙特卡洛树搜索自我对弈生成数据来训练策略价值网络。在数字冰壶仿真模型下,训练时将策略价值网络与蒙特卡洛树搜索进行结合,二者相互指导,相互配合,经多次自我对弈并训练更新后,得到具有一定性能的策略价值网络。考虑到离线训练的策略价值网络无法进行长远的策略思考以及应对多变的的对弈局势无法做到策略上的随机应变,本文结合训练好的策略价值网络引入在线蒙特卡洛树搜索。因冰壶在大范围连续空间内进行运动,而策略价值网络的输出为离散化动作,在本文中引入正态分布将离散动作空间转为连续动作空间。此外,因真实的冰壶运动具有执行不确定性,为贴近真实冰壶运动,在数字冰壶仿真环境下加入随机因数使冰壶期望落点与实际落点存在差异。针对执行不确定性,本文在在线搜索时引入核回归及核密度来重新评价某一动作输出的价值,在评价过程中考虑可能的实际落点对期望落点的影响,以减弱执行不确定性影响,提升策略性能。最后将离线训练的策略价值网络与改进的在线蒙特卡洛树搜索算法进行结合,得到本文最终冰壶策略(PVN-MCTS)。为验证该方法的有效性,本文进行了多组对比实验,对弈结果显示本文所使用方法具有较强的策略性能。
其他文献
软件漏洞严重性可以帮助测试开发人员合理地分配有限的资源,优先修复更加严重的漏洞。然而,漏洞的发布和严重性的人工评估之间存在时间滞后,可能会导致“零日攻击”问题。因此,利用漏洞描述、源代码等信息自动、及时、准确地预测软件漏洞严重性具有一定的现实意义。现有方法存在以下问题:(1)每个项目的CVE漏洞描述数据量少,且不同项目的漏洞描述语言风格差异较大;(2)忽略了多个CVSS漏洞特征之间的共享信息;(3
随着智能设备的普及和信息技术的迅猛发展,视频已经成为人们生产生活中不可替代的信息载体。为了对抗视频数量的爆炸式增长,理解分析视频内容,并扩展应用到现实场景中,有助于提高人们的生产生活水平。本文针对发生在公园、停车场等公共场所中的危险性行为,设计实现了一个基于深度学习的视频行为动作识别模型,为设置在公园、停车场等公共场所中的监控设备添加自动识别并反馈危险性行为的功能,为监控人员提供一种智能化辅助解决
药物治疗对于人类的生命健康起着至关重要的作用。而药物研发过程复杂且漫长,需要投入巨大的人力和研发经费,高昂的研发成本最终影响到药物的价格和患者对治疗方案的选择。分子属性预测是新药发现中的一个重要环节,可以辅助研发人员发现候选药物,加快药物研发速度,从而降低研发成本。目前,深度学习技术在药物研发领域中的应用取得了一定的成果,不断地提高分子属性预测的准确性和可靠性成为了科研人员的主要追求。本文主要研究
航空发动机作为飞机的动力源,由于极高的加工技术、材料和设计能力要求,已成为中国航空工业的重点发展对象。高温高压环境对发动机转子工作性能提出了极高的要求,其中转子不平衡量是发动机转子优良性能评定的重要指标,它直接影响了转子的振动特性。本课题以多级盘片分离转子为对象,从装配工艺技术着手,研究降低转子不平衡量的装配方法,以改善航空发动机的工作性能。针对盘片分离转子不平衡量传递机理不清晰的问题,建立多级盘
随着计算机科学技术的进步、体育运动的普及和发展,人工智能、大数据等计算机技术越来越多的应用于体育行业当中,在体育赛事、体育场馆中计算机和数字化技术发挥着越来越重要的作用。2022年冬奥会将在北京举行,奥组委达成共识将研发智能冰壶机器人在冬奥会冰壶比赛期间进行展示互动。冰壶机器人将人工智能技术与冰雪运动相结合,是我国计算机科技水平和体育运动水平的集中体现。本文依托2022北京冬奥及龙江冰雪产业的智能
随着智能无人车技术的不断发展,使得越来越多的各种形式的无人车在工业上得到了应用。为了使人们的生活更加快捷便利,更多的研究人员致力于智能车领域的研究。移动无人车对未知环境的探索一直是其研究的热点和难点,其中定位和地图构建(SLAM)以及路径规划方案是无人设备实现自主定位和导航的关键技术。本文首先从无人车的定位和地图构建(SLAM)出发,介绍了无人车运动过程中常用的坐标系,建立了移动无人车的圆弧运动模
随着深度学习模型的不断推陈出新以及并行计算能力的不断提升,基于深度神经网络的图像语义分割方法取得了巨大的进步,分割性能得到了极大的提升。然而,这些方法都需要大量有标注的像素级别图像分割标签,耗费大量的人力资源来进行这样逐个像素标签的标注工作。因此,设计良好的弱监督语义分割方法,使用边界框标签或者图像类别标签,是缓解这个问题非常重要的手段。近年来,针对弱监督标签的如边界框标签设计的语义分割方法,往往
随着计算机技术的飞速发展,人类步入了信息时代,在计算机世界中流动的数据总量急速增加。数据在计算机中的存储和在计算机网络中有效传输面临着巨大的困难和挑战。数据压缩是缓解数据存储和传输困难的有效手段。近年来,深度学习技术的发展为数据压缩领域注入了新的活力。本研究探讨了深度学习算法在部分形态的数据压缩中的应用,并在目标数据上的实现了领先的压缩性能。现实世界中的数据形态各异,其中有代表性的是两类数据:(1
人们在日常乘车出行时经常会遇到因道路损坏而造成的坑包塌陷路面以及一些重要场所前专门放置的减速带等离散冲击路面,本文针对这一工况,以响应速度较快、阻尼力调节范围更大以及实用价值更高的磁流变式半主动悬架为被控对象,构建汽车前后轴动态耦合的被控模型,提出一种能够有效抑制车辆垂向和俯仰运动,提高车辆在离散冲击工况下乘适性能的半主动悬架控制策略。本文建立了能同时表征路面空间状态和车辆行驶状态信息的离散冲击路
多关系网络结构是一种中包含了事物与事物之间的多种不同的关联信息的数据结构。在该种结构中的节点和边通常分别表示事物以及多种关系。与单一类型关系网络结构相比较而言,多关系网络结构可以表达更加复杂的事物之间的关系,因此其具有更加广泛的应用范围,像生物学、语言学以及社会科学等等。然而现有的图嵌入方法大多是针对节点之间只有一种单一类型关系的问题而设计的,而非多关系网络结构。然而在现实生活中,更多的数据是有着