论文部分内容阅读
深度强化学习结合了深度学习和强化学习的优势,近来在游戏、机器人、自动驾驶、推荐系统等多个领域有了巨大突破。其中,游戏领域具有简单快捷的数据采样优势,极大地方便了深度强化学习的研究。虽然深度强化学习在Atari 2600游戏和棋类游戏中展现了超越人类的得分能力,但是在第一人称射击(First-person Shooting,FPS)游戏等复杂任务中仍然面临重要挑战。基于ViZDoom平台,本文分析了FPS游戏的特点,有针对性地提出了智能体分解方案,并且采用了多任务学习方法。主要研究内容如下:(1)FPS游戏通常面临着复杂的离散动作空间,多样的任务挑战和难以分配的游戏奖励,本文提出智能体分解方案来解决这些问题。智能体分解是将一个智能体从动作空间、任务类型和奖励分配三个层面进行分解,以此来应对更复杂的任务挑战。其一,本文提出语义动作空间分解方法,按照动作的组合规律和实际意义将原始动作空间分解成若干个动作子空间,每个动作子空间对应了一个Q网络分支,降低了原始动作空间的复杂程度。其二,本文提出任务分解方法,将复合任务分解为导航和进攻两个子任务,每个子任务包括若干个相关的Q网络分支,降低了复合任务的学习难度。其三,本文提出奖励分解方法,通过分配矩阵将全部奖励按照相关性分配给不同的Q网络分支,每个Q网络分支只依赖自身获取的奖励进行更新,促使智能体更有针对性地进行学习。(2)ViZDoom等FPS游戏中,部分可观察的3D环境更好地模拟了真实世界,使得从原始像素中提取特征变得更加困难。本文采用多任务学习方法来解决这一问题,在Q网络基础上增加了一个共享卷积层的辅助分类网络,该网络被用来识别图像中是否存在敌人和资源。Q网络和分类网络的联合训练增强了智能体感知环境的能力,另外,分类网络的输出还能用作子任务调度的依据。实验表明,本文提出的动作空间分解、任务分解、奖励分解方法和采用的多任务学习方法都能提升智能体在ViZDoom中的性能,同时本文的整体方案相比其他方案也更有优势。