基于启发式强化学习的多智能体覆盖问题研究

来源 :现代计算机:上半月版 | 被引量 : 0次 | 上传用户:hlf00852
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
围绕多智能体系统在覆盖路径规划中的应用,构建了由分布式马尔可夫决策模型描述的完全通信的同构多智能体系统,采用事件驱动的思想改进启发式强化学习算法以更好地解决多智能体路径规划存在的覆盖消耗大,重复率高的问题,主要研究内容包括:首先介绍了启发式强化学习相关理论的演变过程。经典的强化学习虽然能保证问题的最优解但要消耗大量的时间和计算资源,因此以Q学习为例引入启发函数构成启发式强化学习,由此扩展到多智能体系统,在启发信息指导下减少多智能体在庞大的策略空间中的遍历次数从而达到加速学习的目的。其次研究了不同启发函数作用下的多智能体覆盖算法。采用事件驱动的机制分别对三种不同启发函数构造的启发式强化学习进行算法改进,以优化多智能体覆盖效果。针对反向传播构建的启发函数存在的先验知识获取程度不明的缺点,设计了一种基于事件驱动的多智能体HAQL算法,避免了结构提取阶段信息不足或计算冗余。多智能体系统通过判断先验知识获取程度,灵活触发反向传播过程,定义启发函数。多智能体覆盖实验说明算法在保证覆盖策略最优的同时加速了覆盖学习过程,节省了计算资源。针对代价信息构建的启发函数存在的因启发信息的主观性无法找到最优策略的问题,设计了一种基于事件驱动的多智能体HASB-QL算法。多智能体根据观测判断触发事件,在观测变化小时采用HASB-QL算法简化联合动作选择过程,反之采用普通Q学习算法扩大策略搜索。多智能体覆盖实验表明算法可以抑制主观先验知识带来的负面启发,以更少的消耗和更小的重复率完成覆盖任务。针对由案例推理构建启发函数时案例库准确性和全面性不足的问题,设计了一种基于事件驱动的多智能体CB-HAQL算法,提高案例准确性并选择性执行案例重用。事件驱动的机制一方面根据每幕策略效果触发生成或更新案例库,另一方面在联合动作选择阶段触发判断是否重用相似度最高的案例来指导联合动作选择。多智能体覆盖实验表明事件驱动的加入提高了案例重用的启发效果,有效降低了覆盖消耗与重复率。
其他文献
相由心生,一个人的相貌到底能不能揭示其内在的性格呢?科学家们正试着回答这一古老的问题    如果当年查尔斯达尔文没有登上“小猎犬号”,那科学史可能就会改写了。当达尔文作为“充满活力的年轻人” 被引荐给“小猎犬号”的船长罗伯特费兹罗伊时,费兹罗伊打量着这位绅士同伴,越看越觉得达尔文的鼻子形状表明他不会吃苦耐劳。  费兹罗伊心存疑虑是因为他迷信相面术。达尔文的女儿亨利埃塔后来回忆道:“是他的额头救了他
我们将三种不同浓度罗比卡因复合芬太尼用于硬膜外持续镇痛泵分娩镇痛,现报道如下.
盐酸丁卡因作为一种长效局麻药普遍应用于硬膜外阻滞中,但很少用于硬膜外术后镇痛,它与阿片类药物配伍使构用更少见.本研究旨在探讨其配伍使用芬太尼于骨科手术后硬膜外镇痛
本刊讯体育产业在我国国民经济中的地位和作用日趋重要,有关专家预测,体育产业拥有巨大的市场潜力和发展前景,其中蕴藏的无限商机值得深入挖掘.
期刊
目的探讨前循环动脉瘤患者手术时机的选择,总结经翼点人路显微手术治疗前循环动脉瘤的手术经验。方法回顾性分析2007—2008年间57例经翼点入路手术夹闭前循环动脉瘤患者的临床
经过多年育种实践,认为在选好当地优良骨干亲本外,更要注重多选地理远缘和生态差异较大的材料做亲本,同时自已要创造中间材料和F1做父本,并要注重三交组合和单交组合方式运用