论文部分内容阅读
多无人机协同侦察监视在情报侦察、战场监视等领域有着广泛的应用,如何将多无人机部署于复杂环境中执行侦察监视任务,是一个影响多无人机应用的重要问题。侦察监视环境往往具有高度的动态性、不确定性和对抗性,因此,建模并设计算法实现多无人机在这种复杂环境中执行连续侦察监视任务是一个具有挑战性的课题。基于此,本文主要研究了以下内容:建立了多无人机协同侦察监视问题的模型。多无人机协同侦察监视问题具有高度的动态性、不确定性和对抗性,侦察监视目的是在规定时间内获得最大的情报信息值并尽量减少与环境中可能存在的威胁进行对抗。之前的大部分研究是将侦察监视问题建模成多目标优化问题,需进行预先规划,但这种方式面临动态不确定的侦察监视环境时,难以适用。因此本文将多无人机协同侦察监视问题抽象为多Agent信息收集问题,并将此问题建模成为部分可观马尔科夫决策问题(Particularly-Observable Markov Decision Process,POMDP),这种模型充分考虑了环境信息的动态性、不确定性和对抗性,更加接近于真实情况。设计了多无人机协同侦察监视问题的求解算法。考虑到侦察监视任务中时间的紧迫性和环境的对抗性,所设计的算法应该在较快时间内完成侦察监视任务并尽量减少与外部环境交互的次数以减少对抗。而强化学习中的模型学习算法正好符合这一特性。因此论文采用模型学习算法对所建模成的POMDP问题进行求解。针对传统Dyna-Q模型学习算法在解决多无人机协同侦察监视中存在的问题,论文分别设计算法对其进行了改进:(1)针对收敛速度慢的问题,论文在学习过程中加入专家知识。据此,论文分别设计了基于优先级扫描的Dyna算法和基于随机占优启发式搜索的Dyna-算法。(2)针对状态空间数目过多的问题,论文采用树结构而不是传统的表格法存储状态动作信息,设计了一种基于树结构改进的Dyna-Q算法,这种方法不仅能够减少存储空间数量,还能够更加有效快速地构建环境模型信息用于规划过程,从而大幅度加快算法的收敛速度。(3)针对多Agent间不存在协作的问题,论文以树结构模型为基础,引入多Agent知识共享技术,设计了基于多Agent知识共享的Dyna-Q算法。这种方法中,Agent会主动地将已知的环境信息分享给其他Agent,这样,多个Agent之间进行知识共享,很快就能构建出环境模型,进而加快算法的收敛速度。设计了多无人机协同侦察监视问题的仿真实验。对侦察监视问题进行求解,并验证所提出算法的有效性。仿真实验结果表明,所提出的算法相比于传统的Dyna-Q算法都有很大幅度的提升。论文以6000时间步内多无人机获得的累积回报值为标准,验证所设计算法的性能。回报值越大,则说明该算法的收敛速度越快。结果表明,基于优先级扫描的Dyna算法、基于随机占优启发式搜索的Dyna-算法、基于树结构的Dyna-Q算法和基于多Agent知识共享的Dyna-Q算法在6000时间步内获得的累积回报值分别是传统Dyna-Q算法的2.9倍、3.4倍、4.7倍、6.9倍。说明所设计的面向多无人机协同侦察监视的模型学习算法性能都有较大程度的提升,在规定时间内,多无人机能够获得更多的情报信息值。