论文部分内容阅读
国际空中机器人大赛IARC自创建以来,通过设置具有挑战性的比赛任务,使得无人机技术从比赛创新性的完成中得到提升。大赛的第七代任务是空中机器人依靠自身传感器感知跟踪多个地面运动目标,并对目标的运动进行影响,引导其向指定的目标区域行进,最终达到将7个地面机器人从指定绿边赶出的目的。该任务涉及动态目标识别、实时任务规划、视觉导航、飞行器高精度快速稳定控制等技术,比赛环境的随机性和不确定性,增大了空中机器人进行实时任务规划的难度。本文结合比赛主要研究空中机器人实时动态的任务规划技术。本文首先对无人机的任务规划技术和人工智能中的强化学习方法进行文献综述。然后介绍了基于MATLAB搭建的以运动状态更新和决策仿真为核心的多模块可替换仿真体系架构,实现了比赛场景的仿真。最后在仿真平台的基础上开发针对本问题的两种飞行器任务规划算法:启发式驱赶算法和人工智能学习型驱赶算法,其中,根据空中机器人是否可全局观测将启发式驱赶算法划分为全局驱赶算法和局部驱赶算法。假设空中机器人在比赛中可以实时观测全部地面机器人运动状态的理想条件下,提出了全局驱赶算法。根据大赛给定的规则搭建仿真平台,利用已有知识经验和比赛特点确定空中机器人在选择目标时需要考虑的指标集,设计初步的驱赶算法并搭建起整个算法的框架,通过仿真实验得到比较理想的评价函数的参数模型,并验证了全局驱赶算法的有效性。为解决空中机器人在实际比赛中只能观测到部分地面机器人运动状况,给决策带来范围限制的问题,进一步改进和优化全局驱赶算法从而得到局部驱赶算法。局部驱赶算法设计了“记忆”功能,使得空中机器人能够保存并模拟当前和曾经存在于观察范围内的地面机器人的运动,扩大了空中机器人决策选择的范围,随后用多个粒子模拟未来一段时间内“记忆”中的单个地面机器人的运动,以减小模拟随机运动带来的不确定性,并进行了大量仿真实验用以评估局部驱赶算法的效率。本文最后研究人工智能强化学习中无模型的SARSA算法,以实现空中机器人自主探索未知比赛环境并做出决策的能力,通过解决地面机器人状态表示的问题,将地面机器人连续的状态空间离散化,然后设计奖赏函数和策略选择机制指导空中机器人的行为,在为算法设置合适的参数后,通过仿真实验验证了学习型驱赶算法的有效性。