论文部分内容阅读
现实生活中很多系统都可以看作是多智能体系统(Multi-Agent System,MAS),这些系统由一些能够感知环境,并且能够根据感知的信息对环境执行相应反应的个体组成,在人工智能和计算社会领域这些个体被称为智能体(Agent)。现实生活中很多系统也可以被抽象为复杂网路(Complex Networks),将系统中的个体抽象为网络中的节点,根据系统中的个体是否“连接”抽象出网络中的边。结合多智能体系统和复杂网络的研究范式,产生了另一种对系统的抽象方式-网络多智能体系统(Networked Multi-Agent Systems),即同时考虑系统的网络拓扑结构和系统中个体的智能性。减少系统中智能体间的冲突,有助于促进系统协调,进而使整个系统更高效地工作。研究发现让系统中的智能体采用一致性的行为是一种有效的解决系统的协调问题的机制,研究学者将系统中智能体的一致性行为称为公约(Convention),而将一致性行为形成的过程称为公约形成(Convention Emergence)。从宏观层面上来讲,有两种机制可以促进公约形成,其中一种是自上而下的管理机制,这种方式是通过一个中央管理者来管理和调节系统中智能体的动作,进而使系统中的智能体采用一致性的行为;另一种是自下而上的形成机制,在这种机制中,系统中的智能体不断地互相交互,并根据交互信息逐渐调整自己的行为,最终形成一致性的行为。自上而下的管理机制的鲁棒性往往不好,例如当作为管理者的智能体本身发生故障时,系统中其他智能体的行为便无法获得调节,即使管理者正常工作,因为环境因素,其对系统中其他智能体的调节信息也可能传递不到每一个智能体。利用智能体能够对环境感知和反应的特点,自下而上的形成机制往往更具鲁棒性,这种机制的鲁棒性来源于两方面,首先系统中每个智能体都是同质的,对系统的影响都是相同的,因此不会因为某一个智能体发生故障而使整个系统不能正常工作,其次,智能体不需要获得整个系统的环境信息,只需要根据其交互信息便可调节自己的行为。对于自下而上的形成机制的研究,其中一个重要的研究方向便是探究智能体如何根据交互信息有效地调节自己的行为,进而使公约更快地在系统中形成。本文研究了网络多智能体系统中的公约形成问题,研究的场景为在网络多智能体系统中,智能体采用多人同步交互模式进行交互,智能体只能感知到交互是否成功而不能观测到邻居的动作。本文分析了在该场景下,现有的公约形成算法存在的两个问题。其一,非学习型算法通常依赖智能体的观测能力,当智能体不能观测到邻居的动作,并且智能体的可选动作非常多时,智能体会盲目地调整自己的动作,导致公约不能有效地形成;其二,在存在隔离区域的系统中,智能体若采用学习型算法,例如Q Learning,系统容易形成局部的子公约(Subconvention),当子公约形成后,因为区域的隔离性而带来的不同区域间智能体交互频率上的差异性,学习型算法会表现出正反馈特性,这种正反馈特性通常会使智能体不能协调彼此间的动作,进而使整个系统不能形成全局的公约。针对以上两个问题,本文提出了Win-Stay Lose-Learn(WSLL)算法来促进公约形成。WSLL根据智能体的动作是否与其多数邻居一致将智能体的状态分为Win和Lose两种状态,若智能体的动作与其多数邻居一致则称智能体处于Win状态,反之为Lose状态。智能体根据不同状态采用不同的策略调整自己的行为,当智能体处于Lose状态时,智能体采用贝尔曼方程学习每个动作的期望收益并根据期望收益调节自己的动作。相反地,当智能体处于Win状态时,智能体维持当前的动作并重置其学习经验以防止子公约形成。为了验证WSLL算法的性能,本文在不同的实验条件下对WSLL和现有方法进行了对比,实验结果表明,相比于对比算法,WSLL更具鲁棒性和有效性。