论文部分内容阅读
人工智能研究正在世界各地如火如荼地进行着,而机器博弈自从计算机和博弈论诞生以来一直是人工智能研究的热门领域。近年来,AlphaGo围棋智能体的大获成功更是吸引了越来越多的研究人员投入到机器博弈的研究中来,值得关注的是该围棋智能体主要使用的深度学习和强化学习算法已经成为当下的人工智能浪潮中最具有代表性的技术。围棋智能体的成功代表着机器博弈领域中的完备信息博弈取得了历史性的突破,而有着更高复杂度、更贴近现实世界的非完备信息博弈依然有很多课题需要研究解决。另一方面,计算机游戏因其具有清晰的规则定义、丰富的场景和可重用性等特点,如今已成为人工智能尤其是机器博弈领域最重要的研究工具和测试平台。本文选取非完备信息3D视频游戏作为研究内容的载体,针对非完备信息博弈中状态维度和动作空间巨大的特点,利用深度神经网络表征强化学习中的价值函数和策略模型,直接使用原始的游戏画面作为神经网络的输入,有别于传统强化学习算法需要在使用相关领域知识的前提下,通过任务建模和人工抽取特征等求解策略的方式。从而解决了传统方法可扩展性差、求解效率低且无法收敛等问题。针对强化学习算法中原始策略梯度算法高方差的缺点,本文引入基线函数的设定。并在对基线函数优化的同时,引入价值模型,从而提出融合价值模型的策略梯度算法,解决了基于价值模型的强化学习算法应用领域狭窄且不易拟合的问题。为了提高强化学习算法的采样和训练速度,加入并行训练机制。考虑到智能体做出正确决策需要综合考虑并分析历史和当前信息的特点,利用门控结构为改进的基于价值模型和策略梯度模型的深度强化学习神经网络加入记忆单元。为解决高维空间中强化学习任务经常出现的奖励值稀疏问题,通过奖励值设计和自驱动机制对稀疏的奖励值进行补充,并促进智能体对环境进行充分的探索。通过目标检测技术,为智能体提供当前游戏画面中敌人的位置信息并为深度强化学习网络增添可利用的有效特征。采用ViZDoom作为深度强化学习算法测试平台,通过相关实验分析和竞赛成绩表明这些改进算法的确能够增强智能体的博弈对战能力。为了有针对性地提升智能体的博弈水平并提高强化学习算法实现和改进的效率,本文设计并实现了一套智能体博弈水平分析系统。