基于强化学习的移动机器人路径规划研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:zjian26
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着现代科学技术,特别是计算机技术、电子通信技术、控制技术的发展,移动机器人性能不断完善,并且在医疗卫生、国防军事、航天航空、机械制造、教育娱乐等领域得到了不同程度的应用。移动机器人在各应用中完成具体任务的前提是从出发点朝向任务目标点规划出一条有效路径,这使得路径规划技术一直是机器人学领域的研究热点。随着人工智能技术逐渐成熟,面向移动机器人路径规划的智能算法得到了广泛的研究。其中,强化学习理论无需预知环境模型,通过“试错”的方式与环境进行交互学习,为机器人理解环境信息提供了理论支持。本文针对传统强化学习算法解决移动机器人路径规划问题时收敛效率低、收敛精度不够、大状态空间不收敛、连续状态空间不适用等问题,主要进行了如下几个方面的研究工作:首先,提出基于DBQ算法的移动机器人路径规划方法。通过对环境信息的形式化描述定义环境模型,根据环境信息与动作规则构建基于BP神经网络的动作选择器BPAS。依据BPAS选择动作的方式改进Dyna-Q算法中的动作选择机制并结合随机策略避免机器人陷入死角区域。根据DBQ算法特点设计奖赏函数,界定收敛条件,通过仿真实验讨论算法在规划效果、收敛性、平均累积奖赏值、执行效率以及学习与规划问题等方面的有效性。其次,在DBQ路径规划算法的基础上,依据近似强化学习的思想提出基于RDBQ算法的路径规划方法。算法利用RBFNN构建值函数逼近器,用以拟合DBQ算法中的值函数表,使得算法适用于大状态空间与连续状态空间。同时,利用DBQ算法做全局路径规划的基础上提出基于RDBQ算法的分层规划策略,采用“离线”与“在线”学习相结合的方式,在机器人进行静态障碍物环境避障的过程中可对环境中的动态障碍物进行实时监测,从而实现机器人在动态环境下的路径规划过程。通过仿真实验观察RDBQ算法在较大状态空间下的规划效果、分析算法性能并验证分层策略在动态障碍物环境的有效性。最后,在真实环境下进行本文相应的验证实验与分析。采用Pioneer3-DX硬件平台,选用教学楼走廊的实验场景,分析本文所提算法在真实环境下路径规划的效果与运行效率,进一步证明算法的有效性与稳定性。
其他文献
我国当前的环境问题是粗放式快速发展的历史积累结果,既是一个发展问题,也是一个历史问题。我们应用历史和发展的眼光正确评估我国的环境问题。环境问题危害当代人与子孙后代,需
采用美国大豆协会提供的大豆浓缩蛋白膨化鲟鱼饲料与普通国产鲟鱼配合饲料,进行鲟鱼养殖效果对比试验。试验结果表明:就整个试验周期来看,以增重率与饲料系数为衡量指标,大豆
自媒体的兴起对党员干部坚定理想信念提出了更高的要求,文章分析了自媒体时代下加强党员干部理想信念教育的重要意义,总结了当前少数党员干部理想信念存在问题的现实表现及其
在静电场中点电荷电场分布的学习过程中,利用Matlab对点电荷电场分布状态进行仿真,把难以理解的、抽象的物理概念用图像显示出来,有助于理解和掌握点电荷电场的分布规律和概念。
改革开放之后,我国交通事业取得了十分显著的发展,道路桥梁工程建设项目的数量不断增多,规模也越来越大,但与此同时,施工管理问题却层出不穷,这对道路桥梁工程的建设质量产生了非常
城市河道生态修复是今后城市河道治理的发展方向,已经被专家和新一代水务工作者所认同,但目前还缺乏基础资料和理论依据,在设计方法和施工工法上仍需要做大量的探索。通过对
采用高效液相色谱法(HPLC)对大叶种红茶英红九号的春、夏、秋三季茶的相对保留时间、相对峰面积、共有峰进行了分析.结果表明,HPLC色谱法具有良好的精密度,各样品色谱峰的相对
19世纪美国女作家凯特·肖班的代表作《觉醒》,并非从传统的伦理道德维度展开。从小说叙述的主题和塑造的人物来看,该小说的创作已突破了一般意义上的女性主义主题,跨入
<正> 《周礼》一书记载乡遂组织系统甚详:一国之内,分为国野两大区域。制国为六乡,由比闾族党州而上达于乡。制野为六遂,由邻里酂鄙县而上及于遂。其特点是以国家政权向个体
记者:去年底今年初,我国部分地区长时间、大范围反复地出现雾霾天气,许多城市空气质量急剧下降,严重威胁人们的正常生产生活。据统计,在刚刚过去的6月份北京雾霾天气数竟然多达18
报纸