面向多智能体协同的深度强化学习技术研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:ptcptsu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多智能体系统是分布式人工智能的一个重要分支,在无人系统协同、资源管理、队形控制等领域有着广泛的应用。近年来,深度强化学习被应用于多智能体领域,在应对动态开放环境、知识可迁移等方面表现出显著优势。然而,当前多智能体深度强化学习方法在应用中也存在如下问题:(1)训练过程中的过时经验问题。深度强化学习的训练依赖历史经验,然而在多智能体场景下,所有智能体的行为策略都在动态进化,使得单个智能体经验回放池中的历史数据、尤其是关于其它智能体的知识会失效,从而导致策略收敛速度慢;(2)运行过程中的系统开放性问题。实际的多智能体系统往往是开放系统,存在旧智能体的退出、新智能体的加入等现象,新加入系统的智能体如何快速地学习到完成任务所需的协同策略,当前工作较少涉及。本课题针对上述挑战开展工作,使用多个Actor从多个平行世界采样训练数据并放弃重用训练数据的方法来避免过时经验问题,融合基于平行世界的方法与经验回放池来权衡降低过时经验影响与提高数据利用率,使用协助学习提高新加入系统的智能体的学习速度。具体而言,本课题开展了如下三方面工作:(1)提出避免过时经验的并发强化学习算法针对过时经验问题,本课题借鉴单智能体领域并行化强化学习方法的思想,使用多个Actor并行的从平行世界采样训练数据,并进一步结合n-step方法加快策略收敛速度。该方法不重用历史训练数据,而是代之以每次训练都使用Actor采样数据,从而避免了过时经验问题。(2)提出适当利用历史经验的平行世界强化学习算法在多智能体系统中,近期的历史经验能够在一定程度上反映系统实际,对于训练收敛可能有所助益。因此,课题在避免过时经验的并发强化学习算法的基础上,本课题将其与经验回放池融合,并进一步通过经验回放池重用数据对应的时分误差(Temporal Difference Error),降低训练需要的计算量。该方法能够在降低过时经验影响与提高数据利用率取得有效权衡,能够降低策略收敛所需的时间。(3)提出基于协助学习的智能体协同策略快速生成方法在系统中加入新的智能体时,已有策略的智能体可以基于其知识,指导新智能体快速学习到协同策略。基于这一思路,本课题首先给出了一种生成能够帮助新智能体快速学习策略的协同建议的方法,并证明了该方法的最优性。而后,提出基于协助学习的“硬建议接纳”和“软建议接纳”两种方法,其中“硬建议接纳”方法采用智能体只在训练前中期接收建议,接收到建议就执行建议的方法;“软建议接纳”方法采用智能体在整个训练过程接收建议,但只以一定的概率接受建议的指导的方法,更适用于存在多个最优解平局的问题。课题选取多智能体协同运输这一典型问题作为实验场景,对上述方法进行了实验验证。实验结果表明,相对于已有工作,上述方法在多智能体协同任务中可以有效减少训练迭代次数、降低策略收敛所需时间,加快新智能体策略学习速度。
其他文献
随着导弹技术的日益发展,导弹机动突防能力越来越强,依靠单枚导弹或多枚无协同导弹对机动目标实现成功拦截的难度越来越大。基于协同的多导弹系统具有作战范围大、毁伤效果强、突防或拦截的成功率高等特点,是实施饱和攻击和高效拦截的有效手段,已成为未来新型作战的研究热点之一。论文以多导弹协同拦截问题为背景,开展基于观测器的目标机动估计和考虑视线角约束的协同制导研究,以提高目标机动信息未知情况下多拦截弹系统的制导
近年来,各种突发事件在世界频发,特别是地震灾害造成了巨大的生命和财产损失,使得应急管理成为世界各国关注的热点。作为应急管理的重要组成部分,应急资源调度的效率决定了指挥决策者在突发事件后能否制定出有效应对突发事件的资源协调方案,最小化突发事件产生的危害影响,保障人们的生命财产安全。资源分配和资源运输是影响应急资源调度效率的两个核心关键问题,本文对其进行了深入研究,主要工作为:(1)针对应急资源分配问
在现场标定过程中,实验室所用的转台精度高、体积大,而在实际重力测量过程中,难以提供如此高精度的三轴转台,而加速度计组件的参数稳定性较差,存在参数漂移问题和逐次启动不重复性误差,需要对加速度计组件进行现场标定。因此,为降低标定方法对高精度转台的依赖,本文研究了多种加速度计现场标定技术,为保证加速度计参数的可观性,本文选用精度相对较低的双轴转台为标定提供足够的观测位置。本文的主要工作如下:1.研究了静
以常导高速磁浮列车相对位置传感器模拟检测与诊断技术为研究对象,提出基于等效负载的检测方法模拟传感器在实际轨道上的工作状况;针对检测方法存在的缺陷进行分析,提出三种优化方法并进行验证和对比;在此基础上,采用KPCA对传感器进行离线故障检测和诊断;最后将等效负载检测方法和传感器故障诊断算法进行了工程实现,设计了一套传感器离线测试台。主要研究内容如下:1、建立了传感器等效电感模型,对等效负载检测方法进行
随着信息技术的不断发展和网络基础设施的不断建设壮大,移动互联网已经成为当今互联网的主要组成部分,针对移动互联网的取证研究和流量分析等领域的重要性日益凸显。针对移动互联网的数据研究以人为捕获的移动端流量为基础,如何高效率地捕获具有详细信息的流量数据是当今移动流量研究的难题之一;移动互联网流量以各类APP产生的流量为主体,通过对移动APP的逆向研究辅助移动互联网流量研究也是常用的技术手段之一。本文首先
数据驱动的深度学习方法因其强大的特征提取能力已经被广泛用于雷达自动目标识别的研究。深度学习能够自动从大量的训练样本中学习数据的特征。与传统的机器学习方法相比,深度学习有更强的提取目标的语义特征的能力,在识别任务中通常有更好的性能。但通常情况下,有标签的雷达数据比较少,不能满足深度学习的训练要求,会导致严重的过拟合现象。此外,雷达传感器容易受到噪声的干扰,雷达回波受其与目标之间的相对角度以及相对位移
随着深度学习的不断发展,基于深度神经网络的应用越来越广泛,并在很多应用领域上取得巨大成功。但是,由于神经网络模型尚缺乏合理的可解释性,导致基于神经网络的系统在安全性和可靠性保障上面临巨大挑战。鲁棒性(Robustness)是衡量神经网络模型安全性和可靠性的重要属性。当前研究重点关注的是神经网络的局部(Local)鲁棒性,即神经网络模型N在给定样本x0以及扰动范围δ的前提下,样本空间中满足‖x-xo
以高速磁浮列车主动导向系统为研究对象,在建立基于搭接结构的导向系统数学模型的基础上进行控制器设计与仿真实验。针对导向系统在列车实际运行过程中可能出现的电磁铁故障和传感器故障以及端部涡流问题展开容错控制方面的研究。主要内容如下:1、在分析导向系统的结构组成、工作原理及控制方案的基础上,建立了导向系统的标称数学模型。并把系统可能受到的扰动和发生的故障考虑到其中,建立导向系统的故障模型。2、采用线性二次
随着互联网的飞速发展,用户、企业、运营商和政府对网络的要求也越来越高,这其中既包含了对服务质量的高要求,也包含了对网络安全的高要求。大量测量机构对互联网展开了大规模的测量,得到了海量的测量数据,这些数据中隐藏着互联网的拓扑结构、连通特性、基础设施运行状态等等诸多信息,研究者通过对这些信息的挖掘与分析,为网络建设和网络安全提供帮助。与此同时,也有很多研究者利用这些数据对互联网协议、路由等展开研究,以
作为众多深度学习中最热门的算法之一,卷积神经网络(Convolutional Neural Networks,CNN)在计算机诸多应用中都取得了很大的成功,广泛应用于语音识别、图像分割、图像识别等领域。为了提高网络性能,网络层数和规模逐渐增加。但是,简单地依靠网络层数增加的方式遭遇到了瓶颈,因此一些新型卷积神经网络相继被提出,比如反卷积神经网络和复杂连接的卷积神经网络。这些网络模型的结构更加复杂,