【摘 要】
:
从人工智能这一概念被提出至今,机器博弈一直是其最具挑战性的研究方向之一,机器博弈又分为完备信息机器博弈和非完备信息机器博弈。非完备信息机器博弈的特点是智能体在博弈
论文部分内容阅读
从人工智能这一概念被提出至今,机器博弈一直是其最具挑战性的研究方向之一,机器博弈又分为完备信息机器博弈和非完备信息机器博弈。非完备信息机器博弈的特点是智能体在博弈过程中无法获得全部的局面信息。真实世界的很多决策问题都可以抽象为非完备信息博弈问题,例如机场规划、网络安全、金融能源等问题。因此,对非完备信息机器博弈的研究具有重要的现实意义。解决非完备信息机器博弈问题的传统方法是部分可观测马尔科夫决策过程模型以及强化学习算法。然而强化学习在信息不完备以及高维的状态空间下无法收敛,仅通过有限的数据和反复测试无法遍历到所有状态。本论文采用深度强化学习算法解决非完备信息机器博弈问题,用深度学习网络替换强化学习中的状态-动作值函数。同时针对深度强化学习算法决策时无法考虑历史信息的问题,提出在深度强化学习网络中加入长短期记忆模型。本论文提出了基于蒙特卡洛博弈树搜索的回报函数计算方法,通过比较每局得到的收益与蒙特卡洛博弈树搜索得到的期望收益,判断对智能体的奖惩情况。传统方法需要手动提取特征,很难发现特征间的内在联系,同时训练时需要大量的领域知识,可扩展性差。本论文提出了适合于深度强化学习等模式匹配算法的扑克建模方法,这种编码方式只需要很少的领域知识便可以将相同的网络结构应用于不同的扑克游戏,实现了很好的可扩展性。最后本论文将改进的深度强化学习算法应用到非完备信息机器博弈中,实现了德州扑克机器博弈系统。从感知到动作端对端地学习策略,避免了复杂的人工提取特征的过程,与传统的学习算法相比,达到了更高的博弈水平。改进的深度强化学习为大规模机器博弈系统的实现提供了一个可行的方法,同时为扩展到现实生活中提供了可能。
其他文献
采用Ansys软件对O形密封圈和Y形密封圈装配件在"安装"状态和密封流体介质作用下的力学性能进行了分析,从分析结果中可判断这种有限元分析方法的正确性。为液压油缸密封件选择
本文采用问卷调查的形式,对不同专业的医学生学习英语的目的、目标、渴望学习的英文知识、英文文献阅读能力及后续学习动力进行调查;计数资料采用率和构成比表达,并用χ2检验比
2017年版《普通高中历史课程标准》,把历史学科核心素养概括为五个方面,即唯物史观、时空观念、史料实证、历史解释、家国情怀,从排序上看,可以解读为家国情怀是历史学科的最
游戏中的人工智能研究一直是一个热门的研究领域,在一些实际的游戏场景中已经取得了很好的研究成果。本文分析了人工智能技术在扑克类游戏中的应用的研究现状,并针对德州扑克
阐述了宣钢4号高炉长寿设计与生产实践工作。高炉从整体设计与耐材选择,长期稳定控制,炉缸维护三方面入手,从设计施工到操作管理,建立完善的高炉长寿管理机制,实现了高炉长寿
不同的改进方案有不同的优缺点,在评价每种方案时,不可避免会受到评价者主观判断的影响。为得到相对客观的评价,文章提出了基于层次分析法的评价方法,将与改进目标相关的因素
目的:探讨对行输尿管镜碎石取石术的患者进行循证护理的临床效果。方法:对2012年5月~2014年5月期间我院收治的70例输尿管结石患者的临床资料进行回顾性研究。我们将这70例患
为解决医院纯水系统降耗减排、集中管理、稳定运行等问题,一种创新型的医用纯水供应系统问世。其最重要的特点是改变以往医院各科室单独供应纯水的状况,采用集中制备、分质供
[目的]建立电感耦合等离子发射光谱(inductively coupled plasma optical emission spectrometry, ICP-OES)测定蝉蜕中20种微量元素含量的方法,并且分析不同品种蝉蜕微量元素含量
目的探索头面部望诊在预测及诊断脑梗死中的价值。方法。。200例头面部望诊有异常的患者,根据其异常的轻重程度制定相应量化积分值,并行头颅磁共振成像(MRI)检查。发现有脑梗死者