基于神经网络的批强化学习在Robocup中的应用

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:phoebe19
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
模拟机器人足球比赛(RobotWorld Cup,Robo3Cup)作为多智能体系统的一个通用的实验平台.通过它可以来检验各种理论、算法和框架等,已经成为人工智能的研究热点。针对在复杂条件下的使用传统Q学习方法所产生的收敛速度缓慢和泛化能力不强的问题,文中使用人工化能力,缩短了学习的时间。并最终将其运用到仿真组比赛的Keepaway模型中,以此验证了该方法的有效性。
其他文献
The models of Professional Learning Communities(PLCs)are based on principles of learning that emphasize the co-construction of knowledge by learners,who in this
高脂血症性胰腺炎发病与高三酰甘油有关,发生重症比例、器官衰竭的发生和复发率高。近年来发病率呈上升趋势,但随着血液净化的介入,治疗及预后得到较快的发展,而组合式血液净
信号与系统课程是通信电子类本科生的专业基础课,双语教学也已成为该专业课程教学改革的热点。本文对信号与系统双语课程的教学模式进行了探讨,通过建设信号与系统课程体系,采用
在公共交通行业中,城市公交企业多以国有为主、受地方政府工作指导,承担着社会公益责任的人员密集型企业。公交企业依据城市规模可大可小,但城市公共交通像城市的血脉,为城市
目前,基于构件的软件开发已经成为软件工程研究领域和软件开发实践过程中越来越重要的内容。在构件的描述与检索中引入本体,可以更好地表示构件间的语义信息,同时使得构件过程描
一年一部经典,一年一次盛宴。在国际海运(中国)年会2012HP将召开之际,本刊就行业关切问题对话业界相关人士。自2008年世界金融危机爆发以来,受全球经济疲软,国际贸易增速放缓的影响
鉴于模糊C-均值类型算法(R、M算法)对初始中心敏感的问题,提出了一种基于遗传算法和模糊聚类的文本分类方法。采用遗传算法初始聚类中心,并在适应度的计算中采用了一个可变值,用户
随着Internet和Intranet技术的迅速发展,异构系统间的信息交换变得日益频繁。当前的方法大都采用对不同的XML Schema手动建立映射关系来处理语义异构的问题。当有新的企业加入