基于深度环境理解和行为模仿的强化学习智能体设计

来源 :浙江大学 | 被引量 : 0次 | 上传用户:shibalian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习算法作为机器学习的重要分支,被用于解决人工智能中复杂的序列决策问题。强化学习算法已经在包括机器人、资源管理、智能推荐、游戏等多个领域取得了成果。其中,游戏领域具有取样简单、安全性高等特点,逐渐成为强化学习算法的重要研究平台。尽管强化学习算法在棋类游戏(AlphaGo等)上取得突出成就,但是对大型视频游戏的控制,仍然是强化学习的挑战。大型视频游戏具有更加复杂的图像输入和环境变化,为研究真实世界的决策问题提供良好的模拟场景。大型视频游戏也为多智能体协作、迁移学习等复杂通用人工智能问题提供了研究平台。本文研究基于FIFA足球仿真视频游戏,针对其中的Shooting Bronze游戏场景,提出了一种基于深度环境理解和行为模仿的强化学习智能体设计方案。该系统在Shooting Bronze场景下达到了 95.7%的射门命中率,超越了人类专家水平和其他常见强化学习算法。本文的主要内容和贡献如下:1.提出了一种分离式深度环境感知与智能决策的模型,将感知与决策解耦,对小目标复杂感知问题进行迁移学习训练,保证感知学习效果,降低决策训练复杂度。2.提出了一种行为模仿辅助的强化学习智能决策算法,通过模仿学习的方法解决奖励延迟问题,通过强化学习对奖励敏感的动作进行策略学习。模仿学习辅助强化学习算法极大减少了强化学习无效探索空间,提升了算法稳定性。3.提出多种强化学习决策算法的优化方式,如使用知识蒸馏提升Q价值函数计算准确性;提出基于counter的探索方法,解决随机探索方法导致的动作概率分布偏差问题;使用奖赏塑形和概率重分布的优先级经验回放方法等,进一步提升了模型效果和稳定性。
其他文献
《电力争议调解暂行办法》仅将履行合同发生的争议纳入调解范围,范围过窄。电力争议调解的范围决定了电力监管机构对电力争议调解的性质为居中民事调解,调解结果无直接和最终
目的:分析开放手术联合外固定架治疗肘关节僵硬的临床效果。方法:46名实施开放肘关节联合外固定手术治疗的患者中,38人为后正中入路,8人为内侧入路,同时联合使用外固定支架辅助
加强管理会计的研究和在企业中的应用有着重要的意义。该文分析了管理会计在我国企业中应用的问题,并在此基础上提出了提高管理会计在企业中应用水平的建议和举措。
<正>对10万+阅读量,没有一个自媒体人可以做到毫不在意,那不仅是一串数字,更是一个创业的梦想。10月10日,公众号"中国移动10086"用户突破一亿的截图刷爆朋友圈。这算是继腾讯
新时期的职工思想教育应积极面对职工的思想现状,以科学发展观为指导,围绕服务宗旨,坚持从思想先导、以人为本、廉洁服务的角度创新思想教育理念,建立职工思想教育长效机制,为的改
现代企业经济管理涵盖许多方面,比如内部审核、生产、人力资源管理等等。特别是在后金融危机时代下,现代企业只有进行全面经济管理才能生产出优质产品。企业只有进行经济管理的
胃肠道神经-Cajal间质细胞-平滑肌网络结构是调节胃肠道运动的主要系统.其中,Cajal间质细胞被认为是胃肠道动力的"起搏细胞"及神经信号传导的"中介细胞",在胃肠道运动调节中起关
光学相干断层成像技术(Optical Coherence Tomography,OCT)是基于低相干光干涉的光学成像技术,能够实现对材料的散射结构进行非接触和高分辨率的三维成像。目前OCT主要包括两