基于深度强化学习的非完备信息3D视频游戏博弈算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:caoenjia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人工智能研究正在世界各地如火如荼地进行着,而机器博弈自从计算机和博弈论诞生以来一直是人工智能研究的热门领域。近年来,AlphaGo围棋智能体的大获成功更是吸引了越来越多的研究人员投入到机器博弈的研究中来,值得关注的是该围棋智能体主要使用的深度学习和强化学习算法已经成为当下的人工智能浪潮中最具有代表性的技术。围棋智能体的成功代表着机器博弈领域中的完备信息博弈取得了历史性的突破,而有着更高复杂度、更贴近现实世界的非完备信息博弈依然有很多课题需要研究解决。另一方面,计算机游戏因其具有清晰的规则定义、丰富的场景和可重用性等特点,如今已成为人工智能尤其是机器博弈领域最重要的研究工具和测试平台。本文选取非完备信息3D视频游戏作为研究内容的载体,针对非完备信息博弈中状态维度和动作空间巨大的特点,利用深度神经网络表征强化学习中的价值函数和策略模型,直接使用原始的游戏画面作为神经网络的输入,有别于传统强化学习算法需要在使用相关领域知识的前提下,通过任务建模和人工抽取特征等求解策略的方式。从而解决了传统方法可扩展性差、求解效率低且无法收敛等问题。针对强化学习算法中原始策略梯度算法高方差的缺点,本文引入基线函数的设定。并在对基线函数优化的同时,引入价值模型,从而提出融合价值模型的策略梯度算法,解决了基于价值模型的强化学习算法应用领域狭窄且不易拟合的问题。为了提高强化学习算法的采样和训练速度,加入并行训练机制。考虑到智能体做出正确决策需要综合考虑并分析历史和当前信息的特点,利用门控结构为改进的基于价值模型和策略梯度模型的深度强化学习神经网络加入记忆单元。为解决高维空间中强化学习任务经常出现的奖励值稀疏问题,通过奖励值设计和自驱动机制对稀疏的奖励值进行补充,并促进智能体对环境进行充分的探索。通过目标检测技术,为智能体提供当前游戏画面中敌人的位置信息并为深度强化学习网络增添可利用的有效特征。采用ViZDoom作为深度强化学习算法测试平台,通过相关实验分析和竞赛成绩表明这些改进算法的确能够增强智能体的博弈对战能力。为了有针对性地提升智能体的博弈水平并提高强化学习算法实现和改进的效率,本文设计并实现了一套智能体博弈水平分析系统。
其他文献
用碳酸钾(K2CO3)溶液活化法成功地制备改性小麦秸秆。采用傅里叶红外光谱仪(FT-IR)、扫描电子显微镜(SEM)和静态吸附试验对改性前后样品的组成、形貌和吸附性能进行表征和测
在西北干旱荒漠区营造防风固沙林,是遏制荒漠化进程,保障绿洲农业生产不受风沙危害的有效途径。但由于该地区天然降雨量少,仅依靠天然降雨很难满足幼龄人工林对水分的需求。为保
新中国成立以来,特别是20世纪70年代改革开放以来,我国的经济水平不断提高,工业化程度逐渐加深,成为了世界上最大的发展中国家。但是,由于我国经济的发展模式以传统和粗放型
新会计准则规定,从2007年1月1日起上市公司正式引入公允价值。所以,通过回归分析将公允价值与盈余管理相结合,通过实证研究公允价值在金融工具、债务重组和企业合并业务中的
目的分析复方甘草酸苷递减疗法联合依巴斯汀治疗慢性荨麻疹的疗效。方法将2015年1月—2018年12月来该院治疗的112例慢性荨麻疹患者设为研究对象。基于随机数字法,均分并成立
基于归一化互相关系数的算法在模板匹配和特征跟踪中运用十分广泛,但缺点是其计算量很大.为此提出了一种在空间域利用盒形基简化互相关的快速算法,在不修改归一化互相关匹配
提出了一种将脱硫废水经脱水处理后直接喷入除尘器前烟道蒸发的方法,从脱硫废水水质、喷嘴特性、雾滴蒸发时间、对除尘器及脱硫系统的影响各方面对其进行研究,并以300 MW脱硫
城市外交是中国国家总体外交的有机组成部分,随着"中国特色大国外交"新进程的开启,需要更好地发挥城市外交在总体外交格局中的战略性作用。首先,中国的城市外交奉行互利共赢
基于宜昌柴油机厂RTA52柴油机的生产实际情况,阐述了中小批量企业的批量、生产间隔期、投入产出提前期、在制品占用量等生产期量标准制定的依据、原则、原理与方法,并提出了应用计算