论文部分内容阅读
随着科学技术的不断发展,小行星探测逐渐成为深空探测领域的一个较新的热门方向,因人们对小行星知之甚少,所以对其进行全方位的探测就显得尤为重要,其中就包括表面现场探测。小行星在体积和质量方面都比行星小得多,其微重力引力场环境给现阶段常用的车轮式探测器带来了极大的挑战,因此提出了采用跳跃式探测器来执行小行星表面的探测任务。目前,国内外对小行星着陆探测器的研究还处在初期阶段,其中更鲜有对探测器连续多次跳跃过程进行规划策略的研究。由于深度强化学习同时具备深度学习对事物的感知表达能力和强化学习对解决问题策略的学习能力,所以结合深度确定性策略梯度算法设计相应的神经网络对小行星探测器跳跃的完整过程进行规划。论文主要内容如下:首先对跳跃式小行星探测器进行了基础建模,并提出了一种简单的快速能量交换策略,旨在验证探测器能够通过碰撞过程实现能量转化。之后在结合深度确定性梯度算法的基础上进行神经网络和奖赏函数的设计,在不考虑飞轮控制能力的情况下对探测器碰撞运动规划策略进行学习,并在测试中有很好的表现。同时为了测试神经网络学到的探测器碰撞运动规划策略在小干扰地面环境下的鲁棒性,又将其在小角度斜面和随机土壤信息的两种环境下进行了测试,也都表现出了优秀的性能。为了研究探测器运动过程的爬坡能力,在较大角度斜面的环境下对神经网络结构进行了改进设计,将斜面信息作为单独的输入,结合到探测器碰撞运动规划策略中,对完成训练的新神经网络进行不同角度的斜面环境测试,同时对比测试原神经网络在相同斜面环境下的表现情况,两者性能变化整体趋势都随倾斜角度的增大而下降,但在大角度的斜面环境下,新神经网络的性能明显优于原神经网络。另外对神经网络在球形地面环境下进行了建模、训练与测试,即使改变了探测器状态空间的表示方式,仍然不影响其碰撞运动规划策略的学习。考虑飞轮控制能力,将飞轮信息作为探测器状态空间的一部分输入到神经网络中进行学习,发现其很难学到碰撞运动规划策略和飞轮控制能力之间的平衡关系,因此提出了一种飞轮卸载规划策略,在探测器与地面碰撞的过程中对飞轮进行卸载处理。通过对状态空间和奖赏函数的重新设计,神经网络能够较好地学到飞轮卸载规划策略,同时在运动范围指标中也表现良好。