论文部分内容阅读
随着机器人技术的发展,机器人已开始应用到未知环境,与静态已知环境下的移动机器人路径规划研究相比较,对于动态未知环境探索应用问题,环境的未知性和动态变化都给机器人路径规划带来了新的挑战。由于机器人不具有环境的先验知识,移动机器人在环境探索过程中不可避免的会遇到各式各样的障碍物,因此,研究具有灵活规划和避障功能的移动机器人及其在未知环境下的路径规划具有重要的现实意义。本文将状态预测与强化学习算法相结合,分别对静态和动态障碍物未知环境下移动机器人的路径规划进行了研究。
文章首先对移动机器人环境探索中路径规划的研究内容进行了综述,然后对移动机器人环境探索下路径规划的研究现状及发展作了回顾,并对本论文的主要结构进行了概述。
其次,详细介绍了有关移动机器人环境探索方面的知识、研究现状及存在的问题,包括栅格地图的创建、到达目标点的代价和效用值的计算、目标点的定义及分配策略等问题。然后,就路径规划的方法、传感器系统及多移动机器人路径规划的冲突消解等相关内容作了详细的阐述。
第三,详细介绍了强化学习的基本概念、原理、方法、各种算法及研究现状等问题,然后从单个机器人在静态障碍物环境中的路径规划入手,以Q强化学习算法为基础,通过合理划分状态空间与动作空间,设计强化函数,描述了该算法在路径规划中的具体应用。
第四,将强化学习算法与“预测”的思想相结合用于单个机器人在动态环境下的路径规划,解决了针对规则运动障碍物和同时存在静态、动态障碍物两种环境的避障问题。考虑到机器人前面每一步的决策对最后的成功或失败都有影响,所以在算法中引入资格迹(Eligibility trace)技术,采用改进的Q学习算法实现控制。
第五,借用人类在动态复杂环境下确定自己下一步行动的预测机制思想,本文将状态预测的方法与强化学习相结合,用于多移动机器人系统环境探索下的路径规划。较以往单纯使用强化学习方法实现的路径规划,本文的方法更加合理的实现了机器人之间的避碰,并通过预测函数降低群体强化学习空间维数、加快了群体强化学习算法的收敛速度。
最后,对本文所作的工作和取得的成果作了总结,分析了可以进一步改进的地方,并对未来发展进行了展望。