基于神经可塑性机制的多智能体系统决策、调度与优化

来源 :东华大学 | 被引量 : 0次 | 上传用户:woainiyuying
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在计算机科学与认知神经科学的浪潮推动下,算法与深度网络模型在越来越多的任务上接近甚至超越了常人,但仍有很多更大型实际的复杂问题亟待解决。相较于单体,多智能体系统作为具有多个独立执行个体的集群,具有个体结构简单、鲁棒性强、可塑性强等明显优点。其主要通过研究个体间的冲突消解、协调合作、资源抢占等方面,在兼顾个体优化的基础上聚焦如何有效地最大化整体能力。本文就此展开了相关研究,主要对系统内单体的决策优化、实时调度系统优化、多智能体容错调度的策略规划方面进行了研究,具体内容阐述如下:
  1)基于无模型元学习法优化的事后经验回放算法。单体执行能力是多智能体系统的基础。在单体的决策优化中,常规的强化学习算法主要擅长在已知可行的策略上迭代改进。对于具有稀疏奖励的复杂任务,算法难以在“探索”和“利用”之间做到充分权衡,从而导致收敛慢或训练陷入局部最优。针对这一问题,本文提出了基于无模型元学习法优化的事后经验回放算法。事后经验回放算法通过记录中间状态,增加了算法的“探索”能力;而无模型元学习法的训练方式可充分利用所探索到的样本进行模型更新,兼顾收敛速度的同时也提升了模型的泛化能力,从而有效提升了单智能体在复杂环境下的成功率。
  2)基于神经可塑性机制的实时重调度系统。针对个体执行失误,本文的第二部分设计了一种实时再调度系统。目前多数重调度算法是先对错误率的分布进行估计,再进行相应处理。然而,错误率分布可能会逐渐的变化,甚至在某些环境中难以估计。本文以不事先对错误率分布预估为初衷,实现根据失败任务和智能体情况的动态调度。所设计系统根据任务条件对任务进行标记,由预调配策略将其委派给空闲个体,并通过重调度引擎来检测任务状态,将失败的任务进行合并和动态再分配。本文结合内在可塑性机制的自调节机理,在任务打包过程中使得合并大小根据实时情况进行自主调节。最后,基于不同情况设计了一系列的统计分析实验,全面测试了系统性能,为后续的应用和优化提供了充分的实践分析。
  3)基于NSGA-III(Non-Dominated Sorting Genetic Algorithm III)优化的策略规划算法。在应用实时调度系统的基础上,本文设计了一种基于knee point优化的NSGA-III算法来实现智能体系统和任务间的预规划。为考虑策略的容错性,每种策略的评价均由重调度系统模拟得出,随后根据选择、交叉、变异、环境选择等操作迭代得出最优策略集。经过一系列的对比实验,本文所提出的K-NSGA-III算法在HV (Hypervolume)和IGD(Inverted generational distance)指标上均优于主流多目标进化算法,在兼顾容错性的同时显著提升了多智能体的效率。
  最后,本文基于多智能体系统的研究背景对此三部分研究内容进行了总结,归纳了其中的创新与不足,并对后续内容进行了规划展望。
其他文献
三维目标的配准与识别是计算机视觉与模式识别领域中的研究热点,已广泛应用于遥感测绘、机器人、军事安防、虚拟现实等领域。三维目标配准旨在对齐两个或多个不同视角的目标三维数据,从而完成姿态校正得到具有更大视场范围或完整的目标三维数据;三维目标识别的目的是基于三维目标模型在复杂场景中识别出模型目标并确定目标的位置和朝向。在三维目标配准识别问题中,点云局部特征描述扮演着至关重要的角色,其目的是充分描述三维局
学位
下肢助力外骨骼机器人是一种可穿戴式设备,它的出现使得穿戴者增强在负重行走、托举搬运和边检巡逻的运动技能,其作用主要在穿戴者展现自身运动动作时,无阻碍增强穿戴者的耐力、提高穿戴者的负重能力、保护穿戴者运动肢体,进而,提高穿戴者的工作效率或战斗力。下肢助力外骨骼机器人可以在人体运动的同时有机融合人体的下肢和上身部分,这种可穿戴设备通常由两条拟人化机械腿、相应的支撑连接设备以及配套的软硬件设施等组成。本
随着不同分辨率的移动设备数量的快速增长,如何将视频适配于多样的移动设备成为一项重要的研究课题。视频缩放技术将视频分辨率缩放至目标分辨率或长宽比以适应不同的播放设备。传统的视频缩放方法,例如均匀缩放或裁剪视频内容,通常会造成视频失真或内容损失,从而效果较差。基于内容感知的视频缩放方法,在改变视频分辨率的同时,能够保持视频中关键对象的形状,并协调视频帧之间的时间一致性和空间一致性,从而产生更少的视频伪
相比于传统的PID(Proportional-integral-derivative, PID)控制方法,先进PID控制方法继承PID结构简单、易于实现和适应性强等优点的同时还具备先进控制策略的优良性能,近年来受到了学术界和工业界越来越多的关注。如何针对复杂控制系统设计先进PID控制器获得更优的控制性能具有重要的理论意义和工程应用价值,已成为控制领域的研究热点之一。一方面,进化算法为先进PID控制
学位
随着卷积神经网络(Convolutional Neural Network, CNN)的诞生与发展,图像分类精度得到了前所未有的提升。众所周知的是 CNN的灵感来源于生物学家 Hubel 和 Wiesel 提出的大脑视觉感知层级模型。本文借鉴该思路,希望通过大脑视觉认知机制启发来改进CNN,使得图像分类性能更好。由此展开了对脑机制与CNN结构特征改进的相关研究。  脑神经科学领域研究表明,人类大脑
学位