基于强化学习的多机器人分布式协同机制研究

来源 :大连理工大学 | 被引量 : 2次 | 上传用户:yht_816
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为分布式人工智能领域(Distributed Artificial Intelligent,DAI)的一个重要研究分支,多智能体系统(Multi-Agent System,MAS)的分布式协同机制已经成为研究热点。多智能体系统由一群相互作用的自主实体组成,广泛应用于企业过程控制、多机器人系统、资源分配管理和自动交易等问题。在多智能体系统中,由于环境的复杂性、动态性和开放性,对智能体的行为进行预先设计通常面临巨大的挑战。作为一种面向环境交互的自主学习范式,强化学习(Reinforcement Learning,RL)是实现多智能体系统分布式协同的有效方法,通过每个智能体与环境交互,并根据交互的反馈值进行最优策略的自主学习,从而实现系统协同的目标。本文面向多自主车协同驾驶、多移动机器人协同侦搜和多感知机器人协同监测等任务需求,深入研究了协同图(Coordination Graphs,CGs)框架下的多机器人分布式协同学习方法和模型,解决了动态环境下的CGs学习、协同机制单一等问题。具体而言:1.研究了高速公路上多自主车辆分布式协同驾驶问题,将RL技术应用于多自主车辆在高速公路场景下协同超车、协同换道等智能决策。针对车辆移动导致的拓扑结构动态变化难题,本文提出了动态协同图(Dynamic Coordination Graphs,DCGs)模型,对车辆运动过程中的动态依赖关系进行建模,并实现了基于DCGs的多自主车辆的分布式协同学习。实验结果表明,与独立学习方法、基于专家规则的方法相比,基于DCGs的分布式协同学习方法在驾驶安全性和交通系统高效性等方面具有更好的性能。2.研究了有限通信能力和观测视野下的移动感知机器人团队(Mobile Sensing Robot Team,MSRT)分布式协同侦搜问题,提出了一种在线迁移强化学习方法,实现了动态拓扑下个体交互经验和学习知识的智能迁移和分布式学习。实验结果表明,与独立学习方法相比,本文所提出的方法可以通过适当平衡每个智能体的局部个体利益和全局团队效益来实现更好的团队性能。3.研究了多感知机器人分布式协同监测问题,根据协同机制作用的不同对象(时间差分误差、学习率和探索率),提出了多种基于CGs模型的分布式协同学习方法,并在分布式传感器网络(Distributed Sensor Network,DSN)环境中验证了所提出方法的有效性和可靠性。DSN问题的仿真实验结果表明,与独立学习方法相比,基于CGs的协同学习方法通过协同RL中的不同学习组件来获得不同的学习模式,具有更好的性能。
其他文献
<正>笔者近期实施的某物资框架招标,项目共分为A、B、C三个标包,招标文件规定投标人参加每个标包的投标需要缴纳5万元的投标保证金。开标后,发现A标包共计17个投标人、B标包
朝鲜民族传统舞蹈的新创作与再发展,是当代中国民族民间舞蹈创作走向的新命题。近几年来国内的朝鲜族舞蹈创作,逐渐认识到传统文化与审美意味的重要性,而以此为创作基础的舞
<正> 紫胶红色素经过几年的试验,现已成功地从紫胶中提取出来,经有关卫生部门鉴定后认为符合食品用色素的要求,并经卫生部、农林部批准允许在国内食品工业部门使用,使用量可
通过对则木河断裂带上4个跨断层形变测点资料的分析,认为则木河断裂带断层活动分为4个不同的活动时段,其不同活动时段断层张压结合;在川滇交界区域发生中强地震前则木河断裂
研究目的评价不同浓度醒脑静注射液对大鼠创伤性脑损伤(traumatic brain injury,TBI)氧化应激损伤的影响。研究方法选择普通级雄性Wistar大鼠216只,随机分为空白对照组、假手
目的对比研究制水银与合成硫化汞的毒代动力学。方法运用原子荧光分光光度法,测定两药物的血药浓度,计算毒代动力学相关参数。结果两药物的Ke、Cmax均很接近,其它毒代动力学
目的将建立气腹的二氧化碳(CO2)加温、加湿,观察其对普外科腹腔镜手术的影响。方法本研究为前瞻、随机试验。选取2016年1月~2017年12月我科行腹腔镜治疗的手术病人152例,随机分
目的 探讨聚乙二醇干扰素α-2b(Peg-IFNα-2b)单药或联合阿德福韦(ADV)对前C区(PC区)/基本核心启动子区(BCP区)突变慢性乙型肝炎(CHB)患者疗效的差异。方法 89例乙肝e抗原(HBeAg)阳性初
目的:应用带线骨锚钉内固定治疗尺骨茎突II型骨折与传统保守治疗的疗效进行对比分析。方法:回顾性分析延边大学附属医院骨关节外科2009年1月至2018年6月期间收治的32例尺骨茎突Ⅱ型(Hauck分型)骨折患者,其中带线骨锚钉治疗的患者14例(实验组),采用石膏固定保守治疗的患者18例(对照组)。采用SPSS25.0软件进行数据统计,分析患者接受治疗前的一般资料以及术后1个月、3个月、6个月的Gar
太阳能LED照明系统以绿色环保节能并具可持续性的特点而备受关注,具有广阔的市场空间和巨大的发展潜力。本文介绍了太阳能LED照明系统的构成及工作原理,阐述了太阳能LED照明