论文部分内容阅读
深度强化学习的出现有效解决了强化学习遇到的维度灾难问题,当智能体处于高维环境中时,深度强化学习使用深度神经网络对环境进行特征提取,并利用强化学习方法进行智能体策略的学习。随着深度强化学习在单智能体环境中取得成功应用,越来越多的研究者开始将其应用在多智能体协同环境中。与单智能体环境不同,在多智能体协同环境中,每个智能体的策略都在训练中不断变化,导致智能体始终处于动态的环境之中,使智能体的策略难以收敛。多智能体协同还需要解决智能体之间的通信问题,有效的通信机制可以加速智能体策略的学习。同时,当环境中智能体数量不断增加,使得智能体状态空间变大,多智能体协同算法的收敛性会面临挑战。针对以上在多智能体协同中存在的问题,本文主要进行了下面几点研究:(1)为了帮助智能体在多智能体环境中稳定学习环境,本文利用集中训练和分散执行(CTDE)框架对最大熵深度强化学习算法Soft Actor-Critic(SAC)进行扩展,提出了基于最大熵的多智能体深度强化学习算法MASAC。当智能体在训练时,可以利用环境中的额外信息,包括其他智能体的观察和动作,帮助智能体稳定学习环境,提高算法的稳定性。而智能体在执行过程中只需要使用自身的观察作为策略网络的输入,进行智能体动作的决策。为了解决MASAC中智能体之间的通信问题,本文引入一种在智能体之间共享的通信设备,智能体利用门机制和GRU的原理实现对通信设备的读操作和写操作。在训练过程中,智能体需要不断学习有效的通信方法,从而使智能体获得更好的表现。同时,MASAC为每个智能体构建了单独的critic网络,使得每个智能体具有独立的奖励函数。实验表明,MASAC在协同、竞争或协同和竞争兼有的环境中均有较好表现,在局部可观察的环境中,智能体之间有效的通信提高了智能体的表现。(2)对于MASAC随着环境中智能体数量的增加,表现下降的问题,本文利用自注意力机制,改善MASAC的可扩展性问题,提出算法ATT-MASAC。自注意力机制利用注意力权重,可以帮助智能体区分环境中不同状态信息的重要性,将更多的权重赋予能够提高智能体表现的关键信息,而忽略不重要的信息,使得智能体的critic网络能够更加有效的对环境信息进行处理。同时,ATT-MASAC中每个智能体具有单独的自注意力机制模型,相比于共享注意力参数的算法,ATT-MASAC在拥有复杂奖励结构的环境中,可以具有更好的表现。实验表明,在更加复杂的多智能体环境中,ATT-MASAC具有更好的可扩展性。该论文有图31幅,表5个,参考文献81篇。