基于深度强化学习的多智能体协同算法研究

来源 :中国矿业大学 | 被引量 : 0次 | 上传用户:pdiudiu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度强化学习的出现有效解决了强化学习遇到的维度灾难问题,当智能体处于高维环境中时,深度强化学习使用深度神经网络对环境进行特征提取,并利用强化学习方法进行智能体策略的学习。随着深度强化学习在单智能体环境中取得成功应用,越来越多的研究者开始将其应用在多智能体协同环境中。与单智能体环境不同,在多智能体协同环境中,每个智能体的策略都在训练中不断变化,导致智能体始终处于动态的环境之中,使智能体的策略难以收敛。多智能体协同还需要解决智能体之间的通信问题,有效的通信机制可以加速智能体策略的学习。同时,当环境中智能体数量不断增加,使得智能体状态空间变大,多智能体协同算法的收敛性会面临挑战。针对以上在多智能体协同中存在的问题,本文主要进行了下面几点研究:(1)为了帮助智能体在多智能体环境中稳定学习环境,本文利用集中训练和分散执行(CTDE)框架对最大熵深度强化学习算法Soft Actor-Critic(SAC)进行扩展,提出了基于最大熵的多智能体深度强化学习算法MASAC。当智能体在训练时,可以利用环境中的额外信息,包括其他智能体的观察和动作,帮助智能体稳定学习环境,提高算法的稳定性。而智能体在执行过程中只需要使用自身的观察作为策略网络的输入,进行智能体动作的决策。为了解决MASAC中智能体之间的通信问题,本文引入一种在智能体之间共享的通信设备,智能体利用门机制和GRU的原理实现对通信设备的读操作和写操作。在训练过程中,智能体需要不断学习有效的通信方法,从而使智能体获得更好的表现。同时,MASAC为每个智能体构建了单独的critic网络,使得每个智能体具有独立的奖励函数。实验表明,MASAC在协同、竞争或协同和竞争兼有的环境中均有较好表现,在局部可观察的环境中,智能体之间有效的通信提高了智能体的表现。(2)对于MASAC随着环境中智能体数量的增加,表现下降的问题,本文利用自注意力机制,改善MASAC的可扩展性问题,提出算法ATT-MASAC。自注意力机制利用注意力权重,可以帮助智能体区分环境中不同状态信息的重要性,将更多的权重赋予能够提高智能体表现的关键信息,而忽略不重要的信息,使得智能体的critic网络能够更加有效的对环境信息进行处理。同时,ATT-MASAC中每个智能体具有单独的自注意力机制模型,相比于共享注意力参数的算法,ATT-MASAC在拥有复杂奖励结构的环境中,可以具有更好的表现。实验表明,在更加复杂的多智能体环境中,ATT-MASAC具有更好的可扩展性。该论文有图31幅,表5个,参考文献81篇。
其他文献
西部大开发以来,新疆经济得到了快速发展,人民生活水平得到了很大提高,社会保障和基础设施方面的建设不断完善。全区的GDP总量由2001年的1491.6亿元提升到2017年的10881.96亿
关于利用优惠政策吸引外商直接投资虽有争论,但是当前,世界上许多国家,尤其是广大发展中国家仍然非常重视采取优惠政策来吸引外商直接投资,本文分别从博弈论、外部经济性、次优选
(七)新兴经济业态税收治理  新兴经济业态是以知识创新为主导、信息技术为基础、人才创业为支撑的经济形势,具有高科技、高附加值、高成长性特征。具体可以划分为共享经济、跨境经济、众筹模式和互联网平台四种形式。新兴经济业态的存在和发展都离不开互联网和大数据的支持,因此我们也可将这些新兴经济业态统称为“网络数字经济”。  十九大报告指出,我国经济已由高速增长阶段转向高质量发展阶段,正处在转变发展方式、优化
报纸
长江流域是我国经济发展的主轴线之一,工业化和城市化进程相对较快。伴随着经济持续快速的发展,长江流域的生态环境持续恶化,对各种灾害的敏感度持续增加。在全球气候变化影
维生素A是一种多效的微量营养元素,维生素A对于早期神经系统发育和成年神经再生有重要的调节作用。成年维生素A缺乏的啮齿类动物表现出运动能力和学习记忆功能的异常。一些研
多元时间序列中的尾指数变点检测在理论和实际应用中都有着广泛应用。本文利用单分位数方法(Single Quantile Method)构造检验统计量检测和估计出多元时间序列数据尾指数变点