基于个性Agent的协作强化学习模型研究

来源 :江苏大学 | 被引量 : 2次 | 上传用户:luckycpw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络和人工智能等技术的发展,智能体(Agent)的研究已成为分布式人工智能(DM—Distributed Artificial Intelligent)研究的一个热点。Agent的理论、技术,特别是MAS(Multi Agent System)的理论技术不仅为解决新的分布式应用问题提供了有效的途径,还为全面准确地研究分布式计算系统的特点提供了合理的概念模型,给我们带来设计和实现可运行在分布与开放环境中的软件系统的一个全新模式,成为描述复杂现象、研究复杂系统、实现复杂自适应性计算的方法。MAS首先根据所研究的问题,定义单个Agent,给Agent赋予一定的行为和参数;然后,定义Agent之间以及Agent和环境之间的交互规则;最后,通过Agent之间的交互活动产生解决问题的能力。由此可见,构造Agent和设计Agent之间的协作是MAS技术的核心。本文针对目前的多Agent协作研究缺乏个性倾向和个性特质模型研究,提出了CRLBP(Cooperative Reinforcement Learning based Personality)模型,试图从另一个侧面解决多Agent协作问题。本文的主要工作包括:(1)提出个性Agent模型,即将个性行为绑定到信息Agent上,并详细描述与形式化具有个性的信息Agent使各个性Agent更匹配任务中的角色位置。(2)将个性hgent模型引入到协作协议中,基于个性Agent的协作强化学习模型(CRLBP),该模型将传统的从单个Agent角度出发的强化学习,应用到Agent群体的协作强化学习,对CRLBP模型与传统模型进行对比实验,在传球和截球方面,CRLBP比传统模型有优势。(3)提出了概率性分布函数并通过评估函数进行修正,形式化了个性Agent,并进行了仿真实验,实验表明与不采用个性的Agent对比,在对单个Agent的传球和截球方面的能力有提高。(4)在机器人足球比赛(RoboCup)仿真平台下,应用CRLBP模型进行Agent体系结构,底层动作,协调策略设计。CRL8P模型基本思想是:在Agent结构中引入个性的概念,根据概率性分布函数动态地修正个性Agent的思维状态,基于个性Agent实现协作强化学习。
其他文献
研究群居性昆虫行为特征的科学家发现,昆虫每个个体能力十分有限,在群落一级上的合作基本上是自组织的,在许多场合中尽管这些合作可能很简单,但是却可以解决复杂的问题。群居
随着信息技术的快速发展,信息安全问题变得目趋复杂与关键,传统的信息安全技术,如防火墙、入侵检测、病毒防范等技术已经不能很好的解决当前计算机系统所面临的安全威胁。可
随着微电子技术、计算机技术和通信技术的快速发展,手机、PC机、音响、MP3、数码相机、摄像机、电视等设备成为人们工作、学习和娱乐的必需品。人们在享受这些设备带来的方便
“状态空间爆炸”问题一直是验证领域不可避免的难题。在验证的过程中,我们发现有许多带有参数的性质具有可归纳的特性,例如路径的长度,随机数的取值范围,状态空间的个数,通
随着计算机技术与通信技术的飞速发展,计算机网络技术在现代社会中的金融、政府、商业、交通、通信、制造业、服务业等各个领域,正发挥着越来越重要的作用。在网络规模不断扩
现在,对等计算(Peer-to-Peer,简称P2P)已经成为计算机界关注的热门话题之一,财富杂志更将P2P列为影响Internet未来的四项科技之一。作为一种特殊的分布式计算技术,P2P在非中
随着数据库技术的迅速发展以及数据库管理系统的广泛应用,各行各业积累了大量的历史数据,而这些激增的历史数据中往往隐藏着很多重要的信息。如何从历史数据中及时发现有用的
电子商务作为20世纪90年代出现的新生事物,以其便捷、高效、低成本的优势,逐步成为新兴的商务活动模式和理念,在世界范围内对各国经济发展带来了深刻的影响,已经成为世界各国制定
聚类分析是数据分析的一种基本方法,既可以作为一种独立的数据挖掘工具,用来获得对数据分布情况的了解,也可以作为其他数据挖掘算法的预处理步骤。因此,在市场或客户细分、模
OSPF协议是目前广泛使用的链路状态协议之一。路由算法在对路由协议的性能起着重要的作用。所以提高路由算法的效率从而使路由达到快速收敛,是当前路由研究方面的一个热点。