基于多机器人系统的多目标围捕协同控制问题研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:hui8554974
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多机器人系统具有可靠性强、结构可扩展、执行任务多样等特点,目前正日益广泛地被应用于军事、工业生产、仓库物流、科教娱乐等方面。基于多机器人系统的多目标围捕控制是一个综合性较强的多机器人协同控制问题,既要求所有机器人建立起包括顶层决策、任务分配及编队控制等协同策略,同时又要保证围捕过程中各机器人之间互相无冲突。本文针对多机器人多目标围捕的任务分配和编队控制两方面开展研究:首先基于混合式体系结构设计了多机器人多目标围捕的任务分配算法,然后分别用经典控制方法和深度强化学习方法实现了多机器人环航围捕编队控制。各部分的研究内容和创新点如下:首先,对多机器人多目标任务分配问题设计了基于混合式体系结构的任务分配算法(Hybrid Dynamic Task Allocation,HDTA)。实际情况中,不同机器人的运动能力和围捕能力存在一定差异,而实际的围捕目标的逃脱能力也不完全相同。因此,本文设计了基于混合式体系结构的动态任务分配(HDTA)算法,能够将出现的多个目标高效且无冲突地分配到各机器人团组,为后续的多个机器人围捕目标提供可能。而后,本文针对多机器人围捕编队控制问题设计了改进的环航编队多机器人目标围捕控制算法。该算法利用图论和经典控制理论对环航编队问题建模分析,设计了不依赖全局信息的分布式编队控制算法。同时,针对编队控制过程中各个机器人的实时路径规划问题,本文将两种经典的实时路径规划算法——子目标法和人工势场法进行结合,可满足实时规划要求,得到无碰撞的、光滑的可行路径,最终实现带避障功能的多机器人环航围捕编队控制。最后,基于多智能体深度确定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)强化学习算法,实现了多机器人目标围捕的环航编队控制。将多机器人目标围捕看作是一个多智能体的博弈问题,并用马尔可夫博弈理论对该问题建模分析,利用MADDPG算法进行多机器人的强化学习训练,并利用仿真实验进行验证。仿真实验结果表明该方法能够有效完成多机器人目标围捕任务,为多机器人多目标围捕问题的解决提供了一种新的思路。
其他文献
体育赛事作为传播体育文化的重要途径,越来越多的体育赛事通过品牌建设来获得广大公众的关注和认可,更多的公众因关于品牌体育赛事而关注到体育文化。“李广杯”国际传统射箭
图像中的信息有很大一部分蕴含在图像的梯度之中,比如图像的纹理、噪点等等。很多图像的优化问题都与图像的梯度有关,例如尽可能沿着图像较大梯度方向而进行的M-S模型图像分
聚类分析的目标是在没有先验知识的情况下把数据集分成若干个簇,使得簇内的数据之间的相似度较高而不同簇之间的数据相似度较低,比如用户可能并不知道数据集分类的数目或数据
一直以来,语音就是人与人之间日常交流的主要载体。随着现代计算机技术和人工智能技术的快速发展,语音逐渐成为人机交互的重要形式。但是周围环境的噪声一直干扰语音信号,语
随着探测对象日趋复杂,适应于起伏界面、复杂结构的逆时偏移成像算法得到了不断发展,此成像方法可高精度重构无法观测区域的物质形态,然而由于此算法存在计算效率低和低频噪
长期以来,命名实体识别任务一直是自然语言处理领域一项非常基础而极具挑战的任务。命名实体识别的目标是从文本序列中识别实体,并将实体分类到预定义的类别当中,如:人(Perso
金属卤化APbX3(A=CH3NH3+,CH(NH2)2+,Cs+;X=Cl-,Br-,I-)钙钛矿纳米晶(Perovskite nanocrystals,PNCs)具有较高的光致发光量子产率(PLQYs)、较窄的发射峰半峰宽(FWHM)、较高的缺陷容忍度
聚苯并噁嗪是一类新型的热固性树脂,具有优异的机械性能、热性能和耐化学溶剂,较低的吸水率、表面能及介电常数,较高的残炭率和良好阻燃性能等,近年来引起了广大研究者的重视
大型激光装置进行实验时,需要更换大量的光机模块,也被称作在线可替换单元(Line Replaceable Unit,LRU模块)。LRU模块主要负责激光的一系列实验,其响应机构需要很高的精密性
作为统计信号处理的有力工具,自适应滤波器被广泛应用于信息处理、自动控制、目标跟踪和生物医学等领域。对于这些实际应用,模拟环境的统计特性不是单纯的高斯的,而是非高斯