多智能体深度强化学习协作技术研究与应用

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:knh1988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
智能体是指通过对环境进行感知,并利用既有知识或者自身不断迭代的策略,与环境进行交互,完成指定任务的个体系统。而多个这样的智能体可以组成一个多智能体系统,可以解决单个智能体能力受限的问题。随着人工智能的发展,强化学习技术常应用在智能体建模上,尤其是深度强化学习可以增强智能体的感知、学习、决策能力。同时,多智能体之间的协作也会提高整体系统的能力上限,可以处理更为复杂的任务。但是,目前基于深度强化学习的多智能体协作问题的相关研究仍然不足,在面对环境部分可观、动态变化以及维数灾难时,多智能体之间的协作还不够充分,仅有局部或部分的合作不足以释放出多智能体协作的潜能,因此还需进一步完善与研究。本文总结了当前多智能体协作研究的历史与现状,以及当前研究面临的主要问题,引出了多智能体深度强化学习协作技术研究的重要性,并详细介绍了相关技术的原理。主要的研究内容如下:(1)在分析多智能体协作问题的基础上,本文将联邦学习与深度强化学习进行结合,提出了一种基于深度强化学习的多智能体联邦协作模型,并阐述了详细的多智能体协作框架以及协作算法,进一步分析了该模型对多智能体协作所带来的益处和优势。(2)追捕问题是典型的人工智能应用场景。针对传统追捕方法协作效率不高、收敛较慢的问题,本文在多智能体联邦协作模型的基础上,进一步优化了协作框架,并针对实际的追捕情况加入了多智能体动态目标分配,提出了基于多智能体联邦协作的智能追捕技术。在追捕过程中,多智能体在利用深度强化学习进行自主决策的同时,也可以通过互相协作加快学习进度,最终完成对目标的快速围捕。(3)5G异构网络(5G heterogeneous network,5G HetNet)是通信领域的未来发展方向,由于其具有异构、分层、广域的特点,容易暴露出大量的网络安全问题。因此,本文在结合5G HetNet架构的基础上,提出了一种基于多智能体联邦协作的5G HetNet安全增强技术。该技术设计了三种类型的安全监测智能体,分别部署在5G HetNet的云端、边缘以及末端,并且设计了端-边-云协作算法,能够在各智能体缩短训练时间的同时,提高安全监测的准确率,从而有效地增强5G HetNet的安全保护能力。
其他文献
在机器学习领域内,随着近年来训练样本数量爆炸式提升以及训练模型的不断增大,单机性能难以支撑人们的训练需求,分布式机器学习成为了越来越多研究者的选择。在分布式机器学习中,训练任务由服务器集群完成,集群中的不同工作节点之间需要共享局部数据并聚合局部模型。因此,相较于单机机器学习,通信量的大幅提升是分布式机器学习平台的重要特点。对分布式机器学习平台通信调优也成为了提升其效率的一大关键。目前已有的分布式机
机器学习与深度学习已经在人类各个领域展现出了优异的表现,然而这是建立在大规模的数据收集与数据标注的前提下,数据标注非常昂贵,为了减少成本,需要用到迁移学习。在缺少标注的情况下,利用有标注的相近数据集进行知识的获取,并将获得的知道迁移到无标签的相关数据集,以达到知识复用的目的。将源域的知识应用于目标域,这在迁移学习中被称为领域自适应,是迁移学习中的核心问题也是本文关注的重点问题。本文利用生成对抗网络
知识图谱应用广泛,不仅是许多NLP(Natural Language Processing,自然语言处理)子任务的上游任务,还是推荐系统、问答系统中的重要组成部分。但主要来源于各类百科的结构化图谱存在大量缺失的关系,而经过关系抽取的图谱存在许多错误元组,这些问题影响了图谱应用系统的正确性。为解决以上问题,知识图谱推理(Knowledge Graph Reasoning,KGR)算法可用于对不完整的
在人工智能、5G技术高度发展的今天,室内定位技术越来越成为人们生活、工业生产、智慧城市建设、安防领域的刚需,起着举足轻重的作用。当下各类室内定位技术百花齐放,例如,基于无线通信、惯导、激光雷达、视觉等的室内定位技术。但室内定位并没有像室外定位技术一样形成统一化、标准化。传统的基于纯惯导定位系统可不依赖部署设备实现自主定位,但惯性器件的固有漂移导致定位结果存在有累积误差。地图匹配数据融合算法通过地图
近年来,随着行人检测技术的应用场景不断增多,其研究的价值和意义也越来越大。由于深度神经网络在行人检测任务中表现出良好的性能,目前大部分行人检测都采用基于深度神经网络的算法实现。然而深度神经网络存在参数量和计算量大的特点,在一些资源有限的小型终端设备中难以进行应用。针对这个问题,本文首先提出了一个基于轻量级神经网络的行人检测算法,包括两个技术点:两阶段轻量级行人检测网络和自适应区域聚焦技术。两阶段轻
图像的全景分割是图像分割领域近年来新提出的一项任务目标,其目的是对图像中每个像素进行类别预测,并对属于实例对象的像素进行实例区分。其任务综合了语义分割与实例分割的特点,是实现全面场景解析的关键一步。在自动驾驶、生物医学、智能机器人等领域有着广泛的应用前景。然而当前全景分割技术依然处于探索研究阶段,许多技术还不够成熟。现有的全景分割技术在实时性与准确率上难以达到工业水准。由于语义分割与实例分割任务在
近年来,机器人不断迅速渗透到社会生产与日常生活中,机器人感知的核心技术,同步定位与建图技术,已经成为研究重点。在许多SLAM的应用中,尤其是自主移动机器人领域,对算法的实时性提出了要求,由于SLAM算法本身的计算复杂度很高,运行在传统的CPU或嵌入式系统上速度较慢,需要高性能的CPU才能满足其要求,然而,由于尺寸和成本的限制,很难在移动机器人上部署高性能的CPU。除此之外,机器人系统还需要处理很多
随着我国信息社会的发展以及移动互联网的迅猛普及,社会中各类资讯信息与互联网的结合更加密切。借助互联网,信息可以在短时间内通过多种传播渠道分发给大量网民。以网络作为媒介,社会舆情可以更迅速、更具体地表现在网络空间中,形成网络舆情。网络舆情是新时代的产物,它的表达方式在具备自由性和互动性的同时也存在误导性和突发性。正确地利用网络舆情信息,充分地发挥其正面影响有利于形成积极健康的舆情氛围,维护社会和谐稳
随着互联网、物联网的日益普及以及各种网络技术和在线应用的提出和使用,对网络带宽的需求越来越大,未来对数字信息的需求将超过目前光通信系统的最大能力。这对作为骨干网的光纤传输技术提出巨大挑战。一方面要保证高可靠,另一方面又要保证大容量。为了平衡这两点,必须利用适合的光学性能监测(Optical Performance Monitoring,OPM)技术对光纤传输物理层参数进行监控,以实现资源的灵活调配
近年来,随着网络应用的迅猛增长,无线自组织网络中的路由协议应该增强自适应性,要既能够满足业务的传输需求,也要降低路由机制的复杂性,节省路由开销,更加高效地利用有限的网络资源。目前,传统的路由协议按路由的发现策略可以分为表驱动路由和按需路由。其中,表驱动路由因为需要网络中参与路由的节点掌握全局的网络拓扑信息,会带来较大的网络负载。而按需路由由于在数据报文传输前要进行一次寻路的操作,会带来较大的时延。