对称和非对称的启发式多Agent再励学习方法

来源 :清华大学学报(自然科学版) | 被引量 : 0次 | 上传用户:doraemon1226
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对解决对传统的多A gen t再励学习算法中,A gen t只能独立学习、不能合作学习的问题和启发式算法中只考虑了单个A gen t而没有推广到多A gen t的情况,给出了对称和非对称环境下的基于启发式的多A gen t再励学习算法。该算法基于A gen t之间的通信来获取其它A gen t的历史信息,以及动作选择策略,结合启发式算法思想,达到A gen t在学习过程中的合作的目的,最终提高学习的效率。以2个A gen t的2个状态3个动作选择为例,表明该算法的收敛速度高于传统分布式再励学习算法的收敛速度。 In order to solve the traditional multi-A gen t re-learning algorithm, A gen t can only learn independently, can not cooperate with the learning problem and the heuristic algorithm considers only a single A gen t without promotion to more A gen t , Gives a heuristic-based multi-A-gen learning algorithm under symmetric and asymmetric conditions. Based on the communication between A gen t, this algorithm obtains other A gen t historical information and action selection strategy, combined with the heuristic algorithm idea to achieve the goal of A gen t cooperation in the learning process and finally enhances the learning efficiency. The case of 2 actions of 2 A gen t is chosen as an example, which shows that the convergence speed of this algorithm is higher than that of the traditional distributed re-learning algorithm.
其他文献
《高中语文新课程标准》在“阅读与鉴赏”的能力层级中对古诗文阅读提出的要求是“阅读浅易文言文,养成初步的文言语感。能借助注释和工具书,理解词句含义,读懂文章内容”。
据说,阿基米德曾经在想通浮力的时候,忘了自己在洗澡,冲到大街上喊:“我发现了我发现了……”真理比羞耻更重要.rn现在我也发现了一个事,自然我不是伟大的科学家,我能发现的,
通过分析《幸运的吉姆》中扭曲的同事关系、功利的师生关系及出版界的荒诞,探索主人公大学讲师吉姆·狄克逊的悲剧成因及其对当时英国高等教育的反思与批判,并分析以其为代表
全面深化统计改革以来,国家统计局把改革和完善统计调查制度作为一项重要工作来抓。我们通过全面梳理和细致评估,查找到了影响统计调查质量的诸多因素。需要国家统计局高度重
在高中英语的教学中,阅读教学是其中的重点,对学生阅读能力的培养也是高中英语教师教学的首要目标。本文聚焦高中英语阅读教学设计,探讨任务型教学在其过程设计中的应用,以此来优
我国是一个多民族的国家,少数民族的舞蹈文化经过千年的传承,历史非常久远,它承载着我国少数民族人民的智慧结晶.随着现代化经济的发展,有很多的少数民族文化慢慢消失.为了我
期刊
【中图分类号】G623.2【文献标识码】A 【文章编号】2095-3089(2016)05-0061-01  朗读是语文教学中不可缺少的环节,也是一种再创造的实践活动。教师通过生动有感情的朗读,可以把课文中的主要内容在学生头脑留下一定的印象,达到思想及审美的教育功能。学生在老师的指导下朗读,可以加深对课文的理解,也可以培养小学生口语和书面语言的表达能力。下面谈谈我在教学过程中培养和提高小学生朗读能