【摘 要】
:
随着深度神经网络的不断发展,深度强化学习算法逐渐在运筹学、机器人控制、自动驾驶等领域大放异彩。然而在更贴近现实世界的场景中,利用强化学习算法进行学习的智能体个数往往超过一个,形成竞争与协作共存的多智能体环境,因此多智能体强化学习算法近年来赢得了学术界以及工业界越来越多的关注,但其仍然存在以下挑战:(1)由于智能体数量的不断增加,对应的状态空间同样急剧扩大,尤其在大规模多智能体系统中,维度灾难不可避
论文部分内容阅读
随着深度神经网络的不断发展,深度强化学习算法逐渐在运筹学、机器人控制、自动驾驶等领域大放异彩。然而在更贴近现实世界的场景中,利用强化学习算法进行学习的智能体个数往往超过一个,形成竞争与协作共存的多智能体环境,因此多智能体强化学习算法近年来赢得了学术界以及工业界越来越多的关注,但其仍然存在以下挑战:(1)由于智能体数量的不断增加,对应的状态空间同样急剧扩大,尤其在大规模多智能体系统中,维度灾难不可避免。(2)多智能体环境下的非稳态性质导致智能体不仅仅需要和环境进行交互,并且其最优决策受到其他智能体动态变化的影响。现有的多智能体强化学习算法在至多数十个智能体的场景中有所成效,然而随着状态空间的指数级增长以及其余智能体的探索累积噪声,大规模场景下的算法研究需要探索新的方向。针对以上问题,本文在平均场多智能体强化学习算法的基础上提出了基于协作者感知的平均场多智能体强化学习算法和基于隐式奖励值分解的加权平均场多智能体强化学习算法,分别从预判邻居行为以及区别化处理邻居信息两个角度消除平均场多智能体强化学习算法中滞后且均值化的邻居信息所导致的影响。具体工作如下:1.针对动态变化的邻居智能体信息的利用,本文在大规模场景下引入了协作者感知学习。协作者感知学习器将邻居智能体根据当前策略所采取的预期行为作为智能体更新自身策略时的考虑因素,以一个额外的修正项形式计算邻居智能体的下一步行为对自身策略所产生的影响,直接修正了其参数更新的过程,从而获得最优策略。2.由于修正项的计算复杂度对智能体的数量非常敏感,本文基于平均场理论建模了一个虚拟的平均场智能体来模拟智能体观测范围内的邻居智能体的平均影响,从而将多智能体之间的复杂交互问题转变为智能体与虚拟平均场智能体之间的两两交互问题。3.针对不同邻居智能体产生的不同平均场效应,且缓解原有平均场估计中对所有邻居智能体的均值化处理所产生的影响,本文在大规模场景下引入带有权重信息的平均场估计形式,并采用多头注意力机制计算其权重系数,从而实现对邻域信息的区别化处理。4.在加权平均场估计的基础上,本文基于隐式奖励值分解的原则考虑中心智能体的自身行为与其邻居智能体所产生的平均场效应,从个体角度将中心智能体的局部Q值有效转化为其自身作用以及邻居智能体的加权平均场作用之和,在消除滞后邻居信息影响的同时实现完全去中心化的执行。在多个大规模多智能体强化学习环境的实验结果表明,本文提出的算法在收敛速度、稳定性、可扩展性等方面均优于基准算法,且在测试模拟阶段均拥有更高胜率,充分证明了本文方法的有效性。
其他文献
丙烯腈-丁二烯-苯乙烯(ABS)树脂是一种性能优异,并且应用很广泛的热塑性工程塑料。由于ABS树脂的分子中存在容易氧化的双键,导致材料老化,从而使ABS树脂的综合性能有所降低,这极大的阻碍了ABS树脂的应用。近年来ABS市场持续高涨,国内对ABS装置的建设热潮正在兴起,但是国内主要生产大宗性ABS树脂,对于具有特定用途的ABS树脂的研究几乎是一片空白,尤其是耐候性ABS树脂的研究处于起步阶段。因此
从学科建设的概念出发,运用系统的观点,结合研究型医院的发展情况总结学科建设的特征,构建基于综合分析各类医学学科评价指标体系特点的研究型医院学科评价指标体系,促进学科发展。文献检索和分析国内外医学主题评价理论和指标体系等研究资料,系统理论学习构建本研究主题评价理论框架,梳理教育部第四轮学科评价指标体系、ESI学科评估指标体系等各种指标体系,选择用科学指标构建初始指标体系。选择了20名相关专家对初步指
目的 通过开展学生忠诚度调查,对安徽省某医学院校附属医院临床教学质量状况进行分析,为高校附属医院学生教育和管理工作提供参考依据。方法 2021年11月采取线上无记名问卷调查的方法,收集安徽医科大学第二附属医院317名在校学生(本科实习生和研究生)的忠诚度(定义为回答“如果再有一次机会,愿意选择本医院”的人数占调查总人数的百分比)及临床教学质量(包括课程质量、师资能力、设施环境、外部支持4个维度18
谷蓝(Indigoidine),来源于微生物,无毒无害,由两分子的谷氨酰胺氧化环化而来,属于靛蓝色素类,在印染、医疗、化妆品等行业都有着非常重要的商业价值。随着需求量的增加,化学法合成蓝色素被广泛应用,但由于化工原料对环境造成的巨大破坏,因此,微生物法合成蓝色素这一绿色环保的方法受到国内外广大学者的重视。目前,关于微生物合成靛蓝色素报道最多的是以吲哚为底物合成靛蓝Indigo,此反应会产生靛玉红等
中国东部经常出现严重的地面臭氧污染,对人体健康和生态系统具有巨大危害。本文基于站点观测和GEOS-Chem模拟的臭氧浓度数据,使用相关分析和合成分析的方法,对后春西西伯利亚积雪与夏季地面臭氧的年际关系进行了探讨,同时量化了极端天气对中国东部臭氧逐日变化的影响程度,并进一步评估了臭氧污染的健康效益。得到了以下结论:(1)在20世纪90年代中期前,偏少的积雪能够通过增加净热量通量激发出夏季欧亚遥相关(
党的十九届中央委员会第六次全体会议通过的决议指出“保护生态环境就是保护生产力,改善生态环境就是发展生产力。必须坚持绿水青山就是金山银山的理念,更加自觉地推进绿色发展、循环发展、低碳发展”。以贵州高原为中心的中国南方喀斯特是世界喀斯特三大连片分布区之一,也是喀斯特发育最典型、最复杂、景观类型最丰富的一个片区,而石漠化是这一地区面临的最严重的生态环境与社会发展问题,必须治理。核桃(Juglans re