论文部分内容阅读
围绕多智能体系统在覆盖路径规划中的应用,构建了由分布式马尔可夫决策模型描述的完全通信的同构多智能体系统,采用事件驱动的思想改进启发式强化学习算法以更好地解决多智能体路径规划存在的覆盖消耗大,重复率高的问题,主要研究内容包括:首先介绍了启发式强化学习相关理论的演变过程。经典的强化学习虽然能保证问题的最优解但要消耗大量的时间和计算资源,因此以Q学习为例引入启发函数构成启发式强化学习,由此扩展到多智能体系统,在启发信息指导下减少多智能体在庞大的策略空间中的遍历次数从而达到加速学习的目的。其次研究了不同启发函数作用下的多智能体覆盖算法。采用事件驱动的机制分别对三种不同启发函数构造的启发式强化学习进行算法改进,以优化多智能体覆盖效果。针对反向传播构建的启发函数存在的先验知识获取程度不明的缺点,设计了一种基于事件驱动的多智能体HAQL算法,避免了结构提取阶段信息不足或计算冗余。多智能体系统通过判断先验知识获取程度,灵活触发反向传播过程,定义启发函数。多智能体覆盖实验说明算法在保证覆盖策略最优的同时加速了覆盖学习过程,节省了计算资源。针对代价信息构建的启发函数存在的因启发信息的主观性无法找到最优策略的问题,设计了一种基于事件驱动的多智能体HASB-QL算法。多智能体根据观测判断触发事件,在观测变化小时采用HASB-QL算法简化联合动作选择过程,反之采用普通Q学习算法扩大策略搜索。多智能体覆盖实验表明算法可以抑制主观先验知识带来的负面启发,以更少的消耗和更小的重复率完成覆盖任务。针对由案例推理构建启发函数时案例库准确性和全面性不足的问题,设计了一种基于事件驱动的多智能体CB-HAQL算法,提高案例准确性并选择性执行案例重用。事件驱动的机制一方面根据每幕策略效果触发生成或更新案例库,另一方面在联合动作选择阶段触发判断是否重用相似度最高的案例来指导联合动作选择。多智能体覆盖实验表明事件驱动的加入提高了案例重用的启发效果,有效降低了覆盖消耗与重复率。