面向多无人平台的Dyna模型学习算法研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:lifen11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多无人机协同侦察监视在情报侦察、战场监视等领域有着广泛的应用,如何将多无人机部署于复杂环境中执行侦察监视任务,是一个影响多无人机应用的重要问题。侦察监视环境往往具有高度的动态性、不确定性和对抗性,因此,建模并设计算法实现多无人机在这种复杂环境中执行连续侦察监视任务是一个具有挑战性的课题。基于此,本文主要研究了以下内容:建立了多无人机协同侦察监视问题的模型。多无人机协同侦察监视问题具有高度的动态性、不确定性和对抗性,侦察监视目的是在规定时间内获得最大的情报信息值并尽量减少与环境中可能存在的威胁进行对抗。之前的大部分研究是将侦察监视问题建模成多目标优化问题,需进行预先规划,但这种方式面临动态不确定的侦察监视环境时,难以适用。因此本文将多无人机协同侦察监视问题抽象为多Agent信息收集问题,并将此问题建模成为部分可观马尔科夫决策问题(Particularly-Observable Markov Decision Process,POMDP),这种模型充分考虑了环境信息的动态性、不确定性和对抗性,更加接近于真实情况。设计了多无人机协同侦察监视问题的求解算法。考虑到侦察监视任务中时间的紧迫性和环境的对抗性,所设计的算法应该在较快时间内完成侦察监视任务并尽量减少与外部环境交互的次数以减少对抗。而强化学习中的模型学习算法正好符合这一特性。因此论文采用模型学习算法对所建模成的POMDP问题进行求解。针对传统Dyna-Q模型学习算法在解决多无人机协同侦察监视中存在的问题,论文分别设计算法对其进行了改进:(1)针对收敛速度慢的问题,论文在学习过程中加入专家知识。据此,论文分别设计了基于优先级扫描的Dyna算法和基于随机占优启发式搜索的Dyna-算法。(2)针对状态空间数目过多的问题,论文采用树结构而不是传统的表格法存储状态动作信息,设计了一种基于树结构改进的Dyna-Q算法,这种方法不仅能够减少存储空间数量,还能够更加有效快速地构建环境模型信息用于规划过程,从而大幅度加快算法的收敛速度。(3)针对多Agent间不存在协作的问题,论文以树结构模型为基础,引入多Agent知识共享技术,设计了基于多Agent知识共享的Dyna-Q算法。这种方法中,Agent会主动地将已知的环境信息分享给其他Agent,这样,多个Agent之间进行知识共享,很快就能构建出环境模型,进而加快算法的收敛速度。设计了多无人机协同侦察监视问题的仿真实验。对侦察监视问题进行求解,并验证所提出算法的有效性。仿真实验结果表明,所提出的算法相比于传统的Dyna-Q算法都有很大幅度的提升。论文以6000时间步内多无人机获得的累积回报值为标准,验证所设计算法的性能。回报值越大,则说明该算法的收敛速度越快。结果表明,基于优先级扫描的Dyna算法、基于随机占优启发式搜索的Dyna-算法、基于树结构的Dyna-Q算法和基于多Agent知识共享的Dyna-Q算法在6000时间步内获得的累积回报值分别是传统Dyna-Q算法的2.9倍、3.4倍、4.7倍、6.9倍。说明所设计的面向多无人机协同侦察监视的模型学习算法性能都有较大程度的提升,在规定时间内,多无人机能够获得更多的情报信息值。
其他文献
苝酰亚胺类化合物于1912年被首次发现并合成成功,在1913年时被当作一种红色染料,用于还原染料领域,在1950年的时候又发展到了有机颜料领域,目前,还被研究者们认为是一种非常
当前世界经济形势复杂多变,国内经济形势面临较大的下行压力,金融监管不断趋严,国家相关部委、金融监管部门相继出台政策,强化去杠杆、去通道,引导资金脱虚向实服务实体经济,
脑机接口是一种将大脑活动信号转换为控制指令,从而对外部设备的操控的新型人机交互技术。本文考虑到构建视觉独立的脑机接口范式在一些特定场景下的必要性,选取触觉通道作为
钙钛矿材料由于具有高吸收系数和载流子迁移率、低缺陷态密度、可调的发光波长以及较长的载流子扩散距离等特点,成为近年来半导体光电材料领域中的“超级明星”,其研究领域从
零形式(Null Instantiation,NI)是指句子中隐式的语义成分,这些语义成分的正确理解将会影响篇章语义的完整性。对于机器来说,识别与实现隐式语义成分的内容填充是一个较难的
目前神经网络已经在联想记忆、模式识别、序列识别、医学诊断、优化、信号处理等方面有了广泛的应用和发展.时滞单向耦合神经网络模型伴随单个网络内的连接权重及时滞,产生一
高中数学是一门基础学科,是进一步学习高等数学的铺垫。由于数学具有高度的抽象性、严谨的逻辑性以及广泛的应用性等特征,因此学生的数学学习水平之间存在较大的差异性。针对
移动智能设备的广泛使用和移动通信技术的不断提升,使得用户可以在移动网络环境下随时随地分享自己的旅游经历,极大地提高了用户发表评论的积极性、增加了用户评论的即时性。海量的用户数据也为挖掘用户旅游偏好提供了更多机会,为用户制定个性化推荐内容的同时也是在为旅游服务提供商发掘潜在用户、增加营业收入。因此,学术界和工业界,都在不断采用更先进、更有效的方法来提高旅游推荐系统的效率。旅游推荐系统的研究由来已久,
物联网技术的发展及应用有力促进了社会生产力的发展,如各种智能设备加速迭代、各类智能传感器研制与综合利用、智能家居设备不断制造与更新等。但是,以上技术与产品在为人们
为了预测全国商品房销售额的变化趋势以及分析导致该变化的影响因素,利用ARIMA(1,1,3)模型对2005-2019年3月全国商品房销售额时间序列进行了拟合及预测,拟合结果和实际数据基