基于多人同步交互模式的公约形成方法研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:itshuai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现实生活中很多系统都可以看作是多智能体系统(Multi-Agent System,MAS),这些系统由一些能够感知环境,并且能够根据感知的信息对环境执行相应反应的个体组成,在人工智能和计算社会领域这些个体被称为智能体(Agent)。现实生活中很多系统也可以被抽象为复杂网路(Complex Networks),将系统中的个体抽象为网络中的节点,根据系统中的个体是否“连接”抽象出网络中的边。结合多智能体系统和复杂网络的研究范式,产生了另一种对系统的抽象方式-网络多智能体系统(Networked Multi-Agent Systems),即同时考虑系统的网络拓扑结构和系统中个体的智能性。减少系统中智能体间的冲突,有助于促进系统协调,进而使整个系统更高效地工作。研究发现让系统中的智能体采用一致性的行为是一种有效的解决系统的协调问题的机制,研究学者将系统中智能体的一致性行为称为公约(Convention),而将一致性行为形成的过程称为公约形成(Convention Emergence)。从宏观层面上来讲,有两种机制可以促进公约形成,其中一种是自上而下的管理机制,这种方式是通过一个中央管理者来管理和调节系统中智能体的动作,进而使系统中的智能体采用一致性的行为;另一种是自下而上的形成机制,在这种机制中,系统中的智能体不断地互相交互,并根据交互信息逐渐调整自己的行为,最终形成一致性的行为。自上而下的管理机制的鲁棒性往往不好,例如当作为管理者的智能体本身发生故障时,系统中其他智能体的行为便无法获得调节,即使管理者正常工作,因为环境因素,其对系统中其他智能体的调节信息也可能传递不到每一个智能体。利用智能体能够对环境感知和反应的特点,自下而上的形成机制往往更具鲁棒性,这种机制的鲁棒性来源于两方面,首先系统中每个智能体都是同质的,对系统的影响都是相同的,因此不会因为某一个智能体发生故障而使整个系统不能正常工作,其次,智能体不需要获得整个系统的环境信息,只需要根据其交互信息便可调节自己的行为。对于自下而上的形成机制的研究,其中一个重要的研究方向便是探究智能体如何根据交互信息有效地调节自己的行为,进而使公约更快地在系统中形成。本文研究了网络多智能体系统中的公约形成问题,研究的场景为在网络多智能体系统中,智能体采用多人同步交互模式进行交互,智能体只能感知到交互是否成功而不能观测到邻居的动作。本文分析了在该场景下,现有的公约形成算法存在的两个问题。其一,非学习型算法通常依赖智能体的观测能力,当智能体不能观测到邻居的动作,并且智能体的可选动作非常多时,智能体会盲目地调整自己的动作,导致公约不能有效地形成;其二,在存在隔离区域的系统中,智能体若采用学习型算法,例如Q Learning,系统容易形成局部的子公约(Subconvention),当子公约形成后,因为区域的隔离性而带来的不同区域间智能体交互频率上的差异性,学习型算法会表现出正反馈特性,这种正反馈特性通常会使智能体不能协调彼此间的动作,进而使整个系统不能形成全局的公约。针对以上两个问题,本文提出了Win-Stay Lose-Learn(WSLL)算法来促进公约形成。WSLL根据智能体的动作是否与其多数邻居一致将智能体的状态分为Win和Lose两种状态,若智能体的动作与其多数邻居一致则称智能体处于Win状态,反之为Lose状态。智能体根据不同状态采用不同的策略调整自己的行为,当智能体处于Lose状态时,智能体采用贝尔曼方程学习每个动作的期望收益并根据期望收益调节自己的动作。相反地,当智能体处于Win状态时,智能体维持当前的动作并重置其学习经验以防止子公约形成。为了验证WSLL算法的性能,本文在不同的实验条件下对WSLL和现有方法进行了对比,实验结果表明,相比于对比算法,WSLL更具鲁棒性和有效性。
其他文献
2018年,中国电子学会把胶囊网络列为人工智能的十大成长性技术之一。胶囊网络是一种全新的深度学习方法,由“深度学习之父”—Geoffrey Hinton于2017年10月提出。胶囊网络,这
SLAM(Simultaneous Localization and Mapping,实时定位和制图研究)是机器人和场景理解中非常重要的研究方向,并且在定位导航领域起着重要作用。近年来由于双目相机的成本较
在配位化学领域中,salamo型配体相比于经典的salen型配体具有更好的灵活性与稳定性,这是因为引入了电负性比较强的O原子,使其在化学反应过程中难发生水解反应和交换反应,从而
姿态控制系统是保证卫星在轨期间能否具有高水平控制性能的关键。随着科技发展和社会进步,人类对卫星的要求任务越来越多样化,这会导致卫星的结构趋于复杂化。结构的复杂化会
手势是人机交互中的一个非常重要的手段。由于近些年来人工智能、增强现实和虚拟现实技术的迅猛发展以及深度相机的普及,实时并且准确的手势姿态估计成为了人工智能研究领域
近年来,随着偏振光学技术的发展,偏振制导技术逐渐被国家重视起来,而偏振制导等偏振仿真实验和偏振器件出厂调试却没有可用的偏振目标模拟源,针对这一问题,本文提出了一种基
切换系统是由若干个子系统和一套切换规律所组成的,日常的生活及工业领域中,许多复杂的系统都可以建模为非线性切换系统来研究,如网络控制系统、电力系统、飞行器控制系统、
四元数神经网络作为复值神经网络或实值神经网络的推广,对于处理高维数据,如彩色图像、人体图像和4-D信号等问题,四元数神经网络有其独特的优势。因此本文致力于四元数神经网
舰船声隐身是海洋军事领域最为关注的问题,降低舰船辐射噪声是当前声隐身中最主要的研究课题。辐射噪声主要为低频线谱,传统的被动噪声控制针对低频噪声无法达到良好的控制效
橡胶混凝土具有轻质阻尼比高以及耐久性能、减震性能、抗裂性能较优等特点,但是在混凝土中加入橡胶集料会使得混凝土的力学性能降低。试验发现橡胶集料表面进行复合处理,改变