论文部分内容阅读
智能水下机器人(Autonomous Underwater Vehicle,AUV)是探索海洋的重要工具,它可以执行环境监测、海底地形测绘、环境评估、管道检查、目标搜索以及水下航行器科学研究等多种任务。对于AUV而言,运动规划能力是其智能的重要体现,它贯穿AUV工作的始终,是AUV的重要组成部分,因此对运动规划技术的研究具有重要而深远的意义。本文以装备预研共用技术(41412030201)为背景,研究并设计了一种基于多约束目标的运动规划系统,使用深度强化学习方法,综合考虑AUV的传感器限制以及其执行机构的约束,实现了 AUV在无地图环境下,躲避障碍物同时抵达目标点的运动规划任务。论文的主要工作如下:(1)本研究以哈尔滨工程大学开发的某小型AUV为基础,参考其传感器配置与执行机构能力,对运动规划系统进行分析及建模。(2)本文针对传统强化学习模型难以处理连续动作空间的问题,设计并实现了一种基于策略的AUV运动规划系统,使用深度强化学习方法直接逼近策略,优化策略,实现了 AUV的连续动作空间的规划,可以达到更为精细的规划效果。除此之外,针对AUV的运动规划任务需求,参考课程学习的思想,设计了适用于AUV运动规划训练的课程。让规划系统在完全的未知环境中进行了仿真测试,验证了系统的可行性。(3)本文针对基于深度强化学习的AUV运动规划系统奖励函数难以设计,容易出现意外解以及连续状态动作空间下奖励稀疏等问题,设计并实现了一种基于好奇心奖励的奖励函数设计方法。方法模拟了人类的好奇心,鼓励AUV更多的探索位置的环境状态,训练过程说明了其在更大的状态空间下,好奇心奖励的优势。与此同时,让规划系统在完全的未知环境中进行了仿真测试,验证了系统的可行性。(4)考虑海流对AUV的干扰作用,进行未知环境下存在海流干扰的规划系统仿真试验,仿真试验验证了本文提出的基于好奇心奖励训练的AUV运动规划系统具有对海流环境的抗干扰能力。