【摘 要】
:
本文针对不完全信息下的决策问题,提出一种基于无监督学习的决策方法。我们选择著名的即时战略游戏星际争霸2作为研究环境,介绍一种分析游戏录像的方法,利用无监督学习分析即
【机 构】
:
北方工业大学; 中国科学院自动化研究所复杂系统管理与控制国家重点实验室; 中国科学院大学;
【基金项目】
:
国家自然科学基金(61573353、61603382、61533017、61673023);北京市自然科学基金(4182019);北京高等学校高水平人才交叉培养“实培计划”毕业设计(科研类)项目资助
论文部分内容阅读
本文针对不完全信息下的决策问题,提出一种基于无监督学习的决策方法。我们选择著名的即时战略游戏星际争霸2作为研究环境,介绍一种分析游戏录像的方法,利用无监督学习分析即时战略游戏中的宏观决策。首先,我们定义一个能够准确描述游戏状态的特征向量,为不同的宏观决策采取不同的提取方式构建数据集;然后,利用K均值聚类算法训练样本并得到分析结果;最后,基于分析结果提取的人类专家宏观决策经验构造智能体,并与游戏内置AI(Artificial Intelligence)对抗。结果证明,智能体宏观决策接近了人类玩家排名系统中前40%的水平。
其他文献
本文在结合企业协同创新理论基础上,探究中美两国中小企业创新的经验和实践:理论上,已由简单的技术获取合作、战略联盟演进到复杂创新网络模式;实践中,首次刻画和验证中美中
新闻背景$$俄罗斯本月纪念卫国战争胜利71周年红场阅兵仪式中,首次亮相了新一代伊尔-76MD-90A军用运输机,代表着其空天部队加速更新武器装备、革新图强的最新成果。自2015年8月
非典型肺炎是由冠状病毒侵袭呼吸道引起肺部炎症反应,损害机体免疫力,治疗主张提高人体免疫力,防御冠状病毒侵袭.玉屏风散加味临床实验证明具有提高血清IgA水平,从而防御冠状
新一代的金属带式无级变速器(CVT)采用基于滑移率的夹紧力控制策略,可以显著地提高CVT的传动效率,但金属片与带轮之间的相对滑动影响了 CVT工作时的油膜牵引条件,且滑摩传动
通过对相关政策法规的分析,发现我国农房保险制度与以城乡居民住宅地震巨灾保险为代表的巨灾保险制度在保障民生、政府主导、市场运作、保险标的、基础保障等方面存在着一定
在中国航天50年的发展历程中,总体部这一组织形式为我国航天科技工业实现跨越发展,取得世界瞩目成就发挥了积极的作用,在复杂大系统航天项目的研制与管理实践中创造了行之有效的
往复式压缩机在安装完成后需要定期进行低速盘车以检验其各零部件运转状况,同时防止曲轴等重要部件因自重而产生变形。华北石化340万t/a渣油加氢处理装置的新氢压缩机组在日
《继续教育》杂志月刊,1987年创刊。由总装备部司令部军训局主管。总装备部继续教育中心主办。面向国内外公开发行,是目前国内继续教育领域发行范围广泛,具有较大影响力的综合
依赖教师和课本的传统数字电路实验教学模式大大制约了学生创新能力的发展,通过优化实验内容,完善考核机制,整合实验方案等教学改革。结果表明,改革极大地引导了学生动手设计
针对滞环电流控制开关频率不固定、频率范围大从而产生较大损耗的问题,以提高控制精度、减少开关损耗为目标,提出一种有源电力滤波器随机变环宽滞环电流跟踪控制方法。该方法