基于状态预测强化学习的移动机器人路径规划研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:lqylzy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着机器人技术的发展,机器人已开始应用到未知环境,与静态已知环境下的移动机器人路径规划研究相比较,对于动态未知环境探索应用问题,环境的未知性和动态变化都给机器人路径规划带来了新的挑战。由于机器人不具有环境的先验知识,移动机器人在环境探索过程中不可避免的会遇到各式各样的障碍物,因此,研究具有灵活规划和避障功能的移动机器人及其在未知环境下的路径规划具有重要的现实意义。本文将状态预测与强化学习算法相结合,分别对静态和动态障碍物未知环境下移动机器人的路径规划进行了研究。 文章首先对移动机器人环境探索中路径规划的研究内容进行了综述,然后对移动机器人环境探索下路径规划的研究现状及发展作了回顾,并对本论文的主要结构进行了概述。 其次,详细介绍了有关移动机器人环境探索方面的知识、研究现状及存在的问题,包括栅格地图的创建、到达目标点的代价和效用值的计算、目标点的定义及分配策略等问题。然后,就路径规划的方法、传感器系统及多移动机器人路径规划的冲突消解等相关内容作了详细的阐述。 第三,详细介绍了强化学习的基本概念、原理、方法、各种算法及研究现状等问题,然后从单个机器人在静态障碍物环境中的路径规划入手,以Q强化学习算法为基础,通过合理划分状态空间与动作空间,设计强化函数,描述了该算法在路径规划中的具体应用。 第四,将强化学习算法与“预测”的思想相结合用于单个机器人在动态环境下的路径规划,解决了针对规则运动障碍物和同时存在静态、动态障碍物两种环境的避障问题。考虑到机器人前面每一步的决策对最后的成功或失败都有影响,所以在算法中引入资格迹(Eligibility trace)技术,采用改进的Q学习算法实现控制。 第五,借用人类在动态复杂环境下确定自己下一步行动的预测机制思想,本文将状态预测的方法与强化学习相结合,用于多移动机器人系统环境探索下的路径规划。较以往单纯使用强化学习方法实现的路径规划,本文的方法更加合理的实现了机器人之间的避碰,并通过预测函数降低群体强化学习空间维数、加快了群体强化学习算法的收敛速度。 最后,对本文所作的工作和取得的成果作了总结,分析了可以进一步改进的地方,并对未来发展进行了展望。
其他文献
输出调节问题近年来一直是一个处于国际前沿的研究课题,其目的是设计一个反馈控制律,使得对于一个含不确定的系统而言,它既能保证闭环系统稳定的同时又能使其输出渐近跟踪和
作为电力系统的基本控制部件,励磁系统在电力系统可靠性和稳定性方面起着重要作用,提高其性能是实现电力系统稳定的最经济有效的措施。目前传统的试验测试装置已很难对励磁系统
在我国股市,股票价格常常在短期内发生大幅涨跌,这种脱离公司基本面的股价短期内大幅涨跌异常现象,与有效市场理论相悖。研究股价大幅涨跌的机理对资本市场的发展有重大的意义。
脑机接口技术是一种能够在大脑与计算机或其他设备之间传递信息的通讯技术,可通过提取、识别脑电信号来推断出人脑不同的思维认知状态,并将其转换为控制指令,实现对外部设备
电子鼻作为一种模仿生物嗅觉系统的智能装置,能够可靠并且快速地实现简单或复杂气味的辨别。相对于传统的气相色谱仪等昂贵的气体分析仪器,它操作简单,分析结果可靠,且适合现场检