基于深度强化学习的第一人称射击游戏研究

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:callingme
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度强化学习结合了深度学习和强化学习的优势,近来在游戏、机器人、自动驾驶、推荐系统等多个领域有了巨大突破。其中,游戏领域具有简单快捷的数据采样优势,极大地方便了深度强化学习的研究。虽然深度强化学习在Atari 2600游戏和棋类游戏中展现了超越人类的得分能力,但是在第一人称射击(First-person Shooting,FPS)游戏等复杂任务中仍然面临重要挑战。基于ViZDoom平台,本文分析了FPS游戏的特点,有针对性地提出了智能体分解方案,并且采用了多任务学习方法。主要研究内容如下:(1)FPS游戏通常面临着复杂的离散动作空间,多样的任务挑战和难以分配的游戏奖励,本文提出智能体分解方案来解决这些问题。智能体分解是将一个智能体从动作空间、任务类型和奖励分配三个层面进行分解,以此来应对更复杂的任务挑战。其一,本文提出语义动作空间分解方法,按照动作的组合规律和实际意义将原始动作空间分解成若干个动作子空间,每个动作子空间对应了一个Q网络分支,降低了原始动作空间的复杂程度。其二,本文提出任务分解方法,将复合任务分解为导航和进攻两个子任务,每个子任务包括若干个相关的Q网络分支,降低了复合任务的学习难度。其三,本文提出奖励分解方法,通过分配矩阵将全部奖励按照相关性分配给不同的Q网络分支,每个Q网络分支只依赖自身获取的奖励进行更新,促使智能体更有针对性地进行学习。(2)ViZDoom等FPS游戏中,部分可观察的3D环境更好地模拟了真实世界,使得从原始像素中提取特征变得更加困难。本文采用多任务学习方法来解决这一问题,在Q网络基础上增加了一个共享卷积层的辅助分类网络,该网络被用来识别图像中是否存在敌人和资源。Q网络和分类网络的联合训练增强了智能体感知环境的能力,另外,分类网络的输出还能用作子任务调度的依据。实验表明,本文提出的动作空间分解、任务分解、奖励分解方法和采用的多任务学习方法都能提升智能体在ViZDoom中的性能,同时本文的整体方案相比其他方案也更有优势。
其他文献
液晶显示器广泛应用于智能手机、平板电脑、车载显示等消费电子领域。背光模组为其提供了高亮度、高均匀性的面光源。现行典型背光模组普遍存在光能利用率低、成本较高等问题
从2001年麻省理工学院启动开放课件项目到2012年推出慕课平台edX,开放教育资源平台由发布式平台逐渐发展成为共建共享式平台。通过调研众多OER平台功能与特征,结合相关文献,
华硕商务管家可为笔记本提供“电源、更新、安全、备份还原、工具、技术支持”六大方面的服务,从而对商务本的日常运行和用户应用进行管理.华硕商务管家在笔记本的安全保障方
听力是维吾尔语学习的重要组成部分,也是维吾尔语学习的重点和难点。因此,听力是维吾尔语教师和学生必须重视的内容。针对维吾尔语听力教学出现的问题,诸如听不懂、重复几遍