基于启发式强化学习的多智能体覆盖问题研究

来源 :现代计算机：上半月版 | 被引量 : 0次 | 上传用户：hlf00852

【摘要】

：

围绕多智能体系统在覆盖路径规划中的应用,构建了由分布式马尔可夫决策模型描述的完全通信的同构多智能体系统,采用事件驱动的思想改进启发式强化学习算法以更好地解决多智能

【作者】

：

贺荟霖

【机构】

：

西南交通大学电气工程学院

【出处】

：

现代计算机：上半月版

【发表日期】

：

2018年期

【关键词】

：

强化学习启发函数事件驱动多智能体系统覆盖问题

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

围绕多智能体系统在覆盖路径规划中的应用,构建了由分布式马尔可夫决策模型描述的完全通信的同构多智能体系统,采用事件驱动的思想改进启发式强化学习算法以更好地解决多智能体路径规划存在的覆盖消耗大,重复率高的问题,主要研究内容包括:首先介绍了启发式强化学习相关理论的演变过程。经典的强化学习虽然能保证问题的最优解但要消耗大量的时间和计算资源,因此以Q学习为例引入启发函数构成启发式强化学习,由此扩展到多智能体系统,在启发信息指导下减少多智能体在庞大的策略空间中的遍历次数从而达到加速学习的目的。其次研究了不同启发函数作用下的多智能体覆盖算法。采用事件驱动的机制分别对三种不同启发函数构造的启发式强化学习进行算法改进,以优化多智能体覆盖效果。针对反向传播构建的启发函数存在的先验知识获取程度不明的缺点,设计了一种基于事件驱动的多智能体HAQL算法,避免了结构提取阶段信息不足或计算冗余。多智能体系统通过判断先验知识获取程度,灵活触发反向传播过程,定义启发函数。多智能体覆盖实验说明算法在保证覆盖策略最优的同时加速了覆盖学习过程,节省了计算资源。针对代价信息构建的启发函数存在的因启发信息的主观性无法找到最优策略的问题,设计了一种基于事件驱动的多智能体HASB-QL算法。多智能体根据观测判断触发事件,在观测变化小时采用HASB-QL算法简化联合动作选择过程,反之采用普通Q学习算法扩大策略搜索。多智能体覆盖实验表明算法可以抑制主观先验知识带来的负面启发,以更少的消耗和更小的重复率完成覆盖任务。针对由案例推理构建启发函数时案例库准确性和全面性不足的问题,设计了一种基于事件驱动的多智能体CB-HAQL算法,提高案例准确性并选择性执行案例重用。事件驱动的机制一方面根据每幕策略效果触发生成或更新案例库,另一方面在联合动作选择阶段触发判断是否重用相似度最高的案例来指导联合动作选择。多智能体覆盖实验表明事件驱动的加入提高了案例重用的启发效果,有效降低了覆盖消耗与重复率。

其他文献

人可以貌相？

相由心生，一个人的相貌到底能不能揭示其内在的性格呢？科学家们正试着回答这一古老的问题　　　　如果当年查尔斯达尔文没有登上“小猎犬号”，那科学史可能就会改写了。当达尔文作为“充满活力的年轻人” 被引荐给“小猎犬号”的船长罗伯特费兹罗伊时，费兹罗伊打量着这位绅士同伴，越看越觉得达尔文的鼻子形状表明他不会吃苦耐劳。　　费兹罗伊心存疑虑是因为他迷信相面术。达尔文的女儿亨利埃塔后来回忆道：“是他的额头救了他

期刊