基于机器学习的游戏智能系统研究与应用

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:maohhmaohh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在机器学习领域中,直接利用高维的感知数据,例如视觉语音信号等,训练学习并获得一个具有良好控制策略的决策系统仍然是一个挑战性的问题。在Deep Q-Learning Network(DQN)提出以前,现有领域内成功的强化学习应用案例主要依赖于组合人工特征或者策略表达来实现,特征的适用性严重影响最后的结果。随着深度强化学习领域的发展,利用DQN算法直接从高维数据以及环境的反馈中,能够以平稳的方式成功地学习到一个非常好的控制策略,在Atari环境中大部分游戏取得了非常好的表现。利用卷积神经网络拥有的直接从高维数据中提取特征的能力以及Q-Learning算法用于训练动作评价网络,DQN在游戏智能领域提供了新的解决思路。然而仍然存在一系列的挑战。首先DQN需要一个完全观测的状态信息,在面对需要超过4帧信息用以表示当前状态的时候,并不能获得一个非常好的控制策略,例如在3D环境下。稀疏、有延迟的、有噪声的奖励信号是另一个问题,强化学习需要从这样一个奖励信号中去学习控制策略,但是由于样本间的强相关性以及奖励信号所存在的问题,往往不能获得比较好的效果。本文利用LSTM(Long-Short Term Memory)网络对长时间状态的记忆能力,以及使用改进的异步训练算法,根据实验的具体情况设计一个基于深度神经网络的游戏智能系统,并在一个3D环境下,验证智能系统所学习到的决策能力。
其他文献
模糊推理是一种不确定性的推理方法,它是模糊专家系统、模糊控制系统等领域的重要理论基础.讨论基于模糊推理算法构成的模糊系统的响应能力是模糊控制理论的一个重要的研究方
随着网络上电子信息的剧增,如何准确高效的获取需要的信息变得日益重要。文摘作为文档内容的概述,它的简洁性、概括性、可读性和客观性能够满足人们高效挖掘有用信息的需求。因
随着Web服务应用的日益广泛,作为制约其进一步发展的安全问题越来越突出,Web服务通信安全的主要目标包括机密性、完整性、不可否认性、认证与授权等,传统的安全解决方案难以
近些年,计算机网络通信在有线通信和无线通信系统中,扮演着越来越重要的角色。因为其主要的目的是传送从模拟信号转变成的数字信号,所以其中必然有转变产生,一些损害因素,如噪声,干
随着网络和信息技术的不断发展和快速普及,传统的社会网络关系已经延伸到虚拟网络环境中,形成了基于网络的互动服务,即社会网络服务(Social Networking Service, SNS),为用户
  本文在传统的CLIQUE算法上提出了一种改进的CLIQUE算法。该算法采用新的网格划分方法,通过将网格单元边长再细分为两份,避免了CLIQUE算法在生成候选密度单元时可能会丢失
为了提高尾矿库安全评价的准确性和效率,同时针对 BP 神经网络容易陷入局部极小值和收敛速度慢的缺点,本文提出并建立了一种基于和声搜索算法优化 BP神经网络的模型进行尾矿库
互联网的快速发展给人们的生活带来极大便利的同时,也使盗版、恶意篡改等非法行为日益猖獗。数字水印技术提供了一种有效保护版权和维护数据安全的手段。针对目前的多数水印算
随着移动互联网技术和智能终端的发展,PC(个人电脑)在家庭中的地位越来越边缘化,但是我们不能否认PC强大的计算处理能力。为了综合利用PC的计算处理能力和智能终端的方便显示
学习矢量量化(LVQ)网络广泛应用于在模式识别和分类领域。为了使样本的分类更准确、快速,结合了电能质量综合评估的问题对 LVQ 算法进行了研究,并在此基础上提出一种改进的算法