论文部分内容阅读
作为分布式人工智能领域(Distributed Artificial Intelligent,DAI)的一个重要研究分支,多智能体系统(Multi-Agent System,MAS)的分布式协同机制已经成为研究热点。多智能体系统由一群相互作用的自主实体组成,广泛应用于企业过程控制、多机器人系统、资源分配管理和自动交易等问题。在多智能体系统中,由于环境的复杂性、动态性和开放性,对智能体的行为进行预先设计通常面临巨大的挑战。作为一种面向环境交互的自主学习范式,强化学习(Reinforcement Learning,RL)是实现多智能体系统分布式协同的有效方法,通过每个智能体与环境交互,并根据交互的反馈值进行最优策略的自主学习,从而实现系统协同的目标。本文面向多自主车协同驾驶、多移动机器人协同侦搜和多感知机器人协同监测等任务需求,深入研究了协同图(Coordination Graphs,CGs)框架下的多机器人分布式协同学习方法和模型,解决了动态环境下的CGs学习、协同机制单一等问题。具体而言:1.研究了高速公路上多自主车辆分布式协同驾驶问题,将RL技术应用于多自主车辆在高速公路场景下协同超车、协同换道等智能决策。针对车辆移动导致的拓扑结构动态变化难题,本文提出了动态协同图(Dynamic Coordination Graphs,DCGs)模型,对车辆运动过程中的动态依赖关系进行建模,并实现了基于DCGs的多自主车辆的分布式协同学习。实验结果表明,与独立学习方法、基于专家规则的方法相比,基于DCGs的分布式协同学习方法在驾驶安全性和交通系统高效性等方面具有更好的性能。2.研究了有限通信能力和观测视野下的移动感知机器人团队(Mobile Sensing Robot Team,MSRT)分布式协同侦搜问题,提出了一种在线迁移强化学习方法,实现了动态拓扑下个体交互经验和学习知识的智能迁移和分布式学习。实验结果表明,与独立学习方法相比,本文所提出的方法可以通过适当平衡每个智能体的局部个体利益和全局团队效益来实现更好的团队性能。3.研究了多感知机器人分布式协同监测问题,根据协同机制作用的不同对象(时间差分误差、学习率和探索率),提出了多种基于CGs模型的分布式协同学习方法,并在分布式传感器网络(Distributed Sensor Network,DSN)环境中验证了所提出方法的有效性和可靠性。DSN问题的仿真实验结果表明,与独立学习方法相比,基于CGs的协同学习方法通过协同RL中的不同学习组件来获得不同的学习模式,具有更好的性能。