基于多Agent强化学习的RoboCup局部策略研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:liu723590
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是人工智能领域中一种重要的用于解决学习控制问题的方法。但是经典强化学习算法在解决RoboCup局部策略训练问题时,仍然存在算法收敛速度缓慢,无法有效解决训练中存在的环境不确定性、多Agent协作与通信以及多目标特性等问题。针对强化学习算法应用于RoboCup局部策略训练时所存在的收敛速度缓慢和无法有效解决局部策略训练多目标特性这两个问题,本文提出了相应的改进方法,其研究内容主要包括以下四个方面:(1)针对累积立即奖赏值形式存在的收敛速度慢、容易陷入局部最优等问题,提出了一种非累积的立即奖赏值形式,将其结合到经典的强化学习方法中,形成了基于非累积立即奖赏值形式的强化学习方法。将该方法应用到机器人足球1对1射门训练中,实验结果表明,非累积立即奖赏值形式在该问题上的收敛速度和训练效果都要优于累积立即奖赏值形式。(2)针对平均奖赏强化学习固有的收敛度慢的问题,提出了一种改进的强化学习算法。同时,为了处理训练中产生的大状态空间问题,提高泛化能力,该算法结合了BP神经网络作为近似函数。将该方法运用于Keepaway局部训练中,训练结果表明,该算法具有较快的收敛速度和较强的泛化能力。(3)针对多目标强化学习问题,提出了一种基于最大集合期望损失的多目标强化学习算法——LRGM算法。该算法预估各个目标的最大集合期望损失,在平衡各个目标的前提下,选择最佳联合动作以产生最优联合策略。(4)针对强化学习结合非线性函数泛化不收敛的问题,提出基于改进的MSBR误差函数的Sarsa(λ)算法,证明了算法的收敛性,并对动作选择概率函数和步长参数进行优化。将该算法与多目标强化学习算法LRGM相结合,应用于RoboCup2对2射门局部策略训练中,取得了较好的效果,实验结果表明了该学习算法的有效性。
其他文献
随着人民生活水平的不断提高,城市化进程的不断加快,现代城市各类公共场所人口和资源不断集中,各种风险和非常规突发事件的威胁日益凸现。非常规突发事件引起的行人疏散过程
在不影响意思表达的情况下,为了语言的简洁明了通常会省略部分语言成分,这种现象称为缺省。缺省是一种常见的语言现象,在汉语中更加普遍。国内外对于中文缺省的研究起步比较早,但
关联规则分析是数据挖掘中最主要的分支,其主要目的就是为了挖掘存在于事务数据库中隐藏的关系或者联系。随着大数据的普及,传统的关联规则挖掘算法暴露出的问题越来越明显,
数字多媒体数据极易在网络上复制、伪造、传播,数据的版权验证保护问题随之凸显出来。数字水印技术因成为解决这一问题的有效方案而受到广泛关注。但是目前大多数水印算法是嵌
当前,数据量的爆炸式增长使得对于存储的需求越来越大,而同时被存储的数据内部存在大量的冗余(例如数据备份系统生成的数据),造成系统存储空间的浪费。重复数据删除技术的出现缓
随着多模态融合识别技术的飞速发展,唇读技术作为模式识别领域中的热点问题得以关注。唇读技术与指纹识别、虹膜识别、视网膜识别等相比,具有更加直接、便捷、适时的特点。唇读
近年来,skyline查询在多目标决策、数据挖掘、数据库可视化等方面得到广泛应用。然而在高维空间环境下,skyline查询因为返回的结果集过大而不能提供有用的信息。因此,学术界提出
关键词抽取是文本挖掘领域里一个重要的研究方向,目的在于能够快速便捷的为用户提供准确、简洁、全面的文本主题信息。那么关键词抽取方法的研究就显得尤为重要。   针对如
强化学习(reinforcement learning, RL)是一类重要的机器学习方法,在智能机器人、经济学、工业制造和博弈等领域得到了广泛的应用。然而目前的强化学习算法在可扩展性方面都
蛋白质作为在生物的生命活动中起到重要作用的生物大分子,其结构和功能研究对生物学有着重要的意义。以往的研究发现,拥有相同进化祖先的同源蛋白质,很可能在结构和功能上也类似