基于深度强化学习的多智能体协同决策研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:kary_yeah
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多智能体协同决策是人工智能领域的一个热门的研究方向,在实际生活中有着重要的作用。随着深度强化学习在单智能体领域的成功,越来越多的学者将其应用到多智能体协同决策任务。但是,由于环境的复杂性和动态性,多智能体强化学习算法在学习过程中可能面临着维度爆炸甚至无法收敛的问题。因此,如何通过智能体之间有效的通信,让智能体进行正确的行为决策,是多智能体领域的一个重要研究课题。为了实现智能体之间有效的通信,以加强智能体的合作,本文基于现有的多智能体强化学习算法,对多智能体协同决策过程中智能体之间的通信进行了研究,具体的研究内容包括以下两部分:第一,针对如何实现智能体之间有效通信的问题,本文提出了基于认知差异和一致性表征的多智能体强化学习方法。通过使用注意力机制聚合智能体与其他智能体之间不同的信息,促进了智能体对环境的认知,使其进行正确的行为决策。本文进一步地设计了一个认知编码网络,获得每个智能体的全局认知一致性表征,然后计算与其他智能体隐藏状态的相似性,用以指导智能体策略网络的训练,进而实现了智能体对环境的一致性认知,加强了智能体的合作。在捕食者-猎物和星际争霸II环境上进行了对比实验和消融实验,实验结果验证了本文方法的有效性。第二,针对如何获取智能体之间的交互关系和进行信息融合的问题,本文提出了基于动态协同图的图卷积多智能体强化学习方法。利用智能体的空间信息和特征信息构建动态协同图捕获智能体之间的交互关系,过滤掉无需交互的智能体;然后利用动态协同图进行图卷积以实现对不同智能体信息的融合,从而增大智能体的感受视野,使其进行正确的行为决策。在星际争霸II环境上的实验结果表明,本文方法在智能体的数量增多时,能够更有效地提升算法的性能。
其他文献
声表面波(Surface Acoustic Wave,SAW)传感器是利用压电效应和声表面波传播的物理特性制成的MEMS器件。传统Si基MEMS应变传感器无法在超过100℃的高温环境下工作,难以满足高温场景的压力测量工作。而作为压电材料的AlN薄膜具有优异的物理和化学性质,但其仍存在着压电常数d33和机电耦合系数K2较低的问题。本论文着重于研究改进AlN薄膜工艺,来制作出基于AlN压电薄膜的SAW
微小磁钢通常用作磁场源,配对后为部分微小精密器件提供恒定的气隙磁场,以导弹制导中惯性加速度计的微小磁钢对为例,它为加速度计力矩器提供气隙磁场,使其产生的电磁力与加速度惯性力相平衡,是加速度计的核心元件。为获得满足技术要求的气隙磁场,使用前需对磁钢进行筛选配对,如配对不理想将导致气隙磁场强度畸变,影响加速度计性能。目前,实际生产中微小磁钢的配对工作主要由工人配合精密夹具和磁强计操作完成,存在磁场测量
大型数控机床在装备制造领域占有重要地位。长行程线性导轨作为大型数控机床的关键部件,其精度直接影响大型数控机床的加工精度。要提高长行程线性导轨的精度,就必须对长行程线性导轨的运动误差进行精确的测量。激光运动误差测量方法具有高效率、高精度的优点,可应用在长行程线性导轨的运动误差测量中。激光运动误差测量系统需要在保证测量精度的前提下减小体积,使其能够安装在大型数控机床内,实现对长行程线性导轨运动误差的在
在海洋工程模型实验中进行波高数据采集时,往往需要在较远的距离处对多个分散位置的波浪信息进行准确测量,因此需要数据采集系统不仅具备较高的数据传输率及可靠的传输方式,而且还要有较高的实时性和测量精度。然而,现今的波高数据采集系统电路设计复杂、可靠性较差、数据采集通道有限、现场布线复杂,无法满足海工模型实验的需求。针对海工实验中波高数据采集所面临的问题,本文提出了一种新型电容式波高传感器的设计方法,并采
近年来,随着扫描技术的迅速发展,点云已经成为计算机视觉领域的研究热点,并逐渐发展为三维形状分析的主要研究对象。三维形状分析通过数字几何的算法,挖掘三维模型的几何特征、语义关系及模型的功能性。如何准确、有效地实现三维形状分析,是机器人感知、无人驾驶及虚拟现实等任务的基础,有着广泛的应用前景。三维形状分析主要包括模型检索,模型分割,语义对应,功能性分析等任务,而三维形状的局部特征能够准确地描述形状的局
城市化进程加快使得住房建设规模扩大,相关行业发展迅速,但是行业的迅速发展也使得其中存在的问题也越发凸显,例如住房建设中的卫生间渗漏问题,其作为房屋建设中的重要问题之一,直接影响了居民的使用和房屋的质量。基于此,本文就卫生间防水施工质量控制展开研究,首先阐述了卫生间防水必要性,其次对卫生间发生渗漏的原因进行分析,最后提出了防水施工质控措施,希望能够防止卫生间漏水。
随着基于5G网络的触感网的迅速发展,触觉通信系统及遥操作技术受到了学术界及工业界的广泛关注。其中,人类在环的力反馈遥操作触觉通信系统是存在于触感网中的典型用例,它将代表人类主观感受的判断标准引入系统,称作用户体验质量(Quality of Experience,Qo E),以此反映系统性能。因此,在多个遥操作用户同时共享同一通信网络时,如何能够最大化网络总体用户体验质量成为目前一个主要的挑战。Qo
多目标优化问题是工程应用与科学研究的基本问题。处理该类问题的主要方法是进化计算。随着工业的发展,该问题的目标数量与问题规模都急剧增大。出于维数诅咒的原因,多目标进化算法在处理大规模超多目标优化问题时性能显著下降。因此大部分研究采用了分解策略以达到提升多目标优化算法性能的目的。针对分解策略仍存在的一些挑战,进行了改进。本文主要贡献如下:针对决策变量分析方法产生的分组结果不准确的问题,提出了一个统计变
深度神经网络(DNN)在包括计算机视觉,语音识别,自然语言处理,量子化学和医疗保健在内的多个研究领域中均表现出出色的性能。然而,众所周知,我们对其有效性的理论理解仍然不完整。深度学习架构需要通过标注大数据驱动的误差通过反向传播算法来不断优化“端到端”上的模型参数,这种学习过程犹如一个“黑盒子”。随着机器自动的黑盒算法开始辅助人类做出决策,这些机制有必要被更多的解释。此外,虽然这些大的神经网络用处广
在机器学习中,训练样本的数量与数据的准确性是除了模型之外对预测结果的准确性(也叫保真度)影响最大的因素。在很多实际问题中,例如计算机仿真问题,很多准确数据的计算成本是极高的,这种数据称为高保真度(High fidelity-HF)数据;而计算成本低、易获得,但准确度较低的数据称为低保真度(Low fidelity-LF)数据。利用这些多保真度数据建立的回归模型称为多保真度模型。多保真度建模致力于结