论文部分内容阅读
强化学习算法作为机器学习的重要分支,被用于解决人工智能中复杂的序列决策问题。强化学习算法已经在包括机器人、资源管理、智能推荐、游戏等多个领域取得了成果。其中,游戏领域具有取样简单、安全性高等特点,逐渐成为强化学习算法的重要研究平台。尽管强化学习算法在棋类游戏(AlphaGo等)上取得突出成就,但是对大型视频游戏的控制,仍然是强化学习的挑战。大型视频游戏具有更加复杂的图像输入和环境变化,为研究真实世界的决策问题提供良好的模拟场景。大型视频游戏也为多智能体协作、迁移学习等复杂通用人工智能问题提供了研究平台。本文研究基于FIFA足球仿真视频游戏,针对其中的Shooting Bronze游戏场景,提出了一种基于深度环境理解和行为模仿的强化学习智能体设计方案。该系统在Shooting Bronze场景下达到了 95.7%的射门命中率,超越了人类专家水平和其他常见强化学习算法。本文的主要内容和贡献如下:1.提出了一种分离式深度环境感知与智能决策的模型,将感知与决策解耦,对小目标复杂感知问题进行迁移学习训练,保证感知学习效果,降低决策训练复杂度。2.提出了一种行为模仿辅助的强化学习智能决策算法,通过模仿学习的方法解决奖励延迟问题,通过强化学习对奖励敏感的动作进行策略学习。模仿学习辅助强化学习算法极大减少了强化学习无效探索空间,提升了算法稳定性。3.提出多种强化学习决策算法的优化方式,如使用知识蒸馏提升Q价值函数计算准确性;提出基于counter的探索方法,解决随机探索方法导致的动作概率分布偏差问题;使用奖赏塑形和概率重分布的优先级经验回放方法等,进一步提升了模型效果和稳定性。