基于深度强化学习的移动机器人自主路径规划研究

来源 :华东交通大学 | 被引量 : 0次 | 上传用户:jasonzhong414
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
移动机器人作为智能机器人的重要分支之一,关于其路径规划的研究,一直被国内外学者作为研究的热点。近年来,随着人工智能与智能制造技术的飞速发展,移动机器人与各种智能算法结合,应用领域不断扩展,但也同时面临着更多的挑战。目前,大多数学者都是针对已知环境下的路径规划算法进行研究,移动机器人缺乏自主学习性,当面临未知环境时很难找到一条抵达终点且无碰撞的路径,并且大部分都是输出离散动作,不符合场景应用。因此,本文将前沿的深度强化学习算法应用于移动机器人路径规划问题中,使移动机器人通过强化学习算法在未知环境下进行探索与学习,并训练其决策能力,最终实现连续动作空间下的路径规划与避障。本文的主要研究如下:首先,介绍了基于策略的强化算法原理,对文章采用的双延迟深度确定性策略梯度算法(TD3)相关理论进行阐述,并针对TD3中存在的不足进行改进,提出了I-TD3算法。I-TD3算法通过引入优先回放机制和OU探索噪声分别解决了TD3算法中样本采样效率低和动作空间探索持续性弱的问题。为了测试算法的有效性,通过强化学习开发平台Open AI Gym对改进后的I-TD3算法进行Inverted Pendulum-v2实验。实验结果表明,I-TD3算法在相同的条件下,减少了训练所需时间,提高了算法的稳定性。其次,为了使深度强化学习能更有效的解决移动机器人在连续动作空间下的路径规划问题,建立了二轮差速移动机器人的运动模型,搭建了基于I-TD3自主路径规划算法框架,并在框架中设计了算法的状态空间、动作空间、奖惩函数和整体流程。同时,通过选择合适的激活函数,设计出算法的深度神经网络结构,使算法框架更加符合实际需求。最后,对提出的自主路径规划算法进行实验设计与结果分析,验证其可行性与有效性。实验基于ROS软件平台,采用Gazebo仿真平台,将Turtlebot3作为实验对象,搭建了静态和动态障碍物实验场景。在设置实验训练流程和实验参数后,将I-TD3算法和TD3算法分别在两个场景中进行路径规划实验,分析对比实验结果。实验结果表明:在未知环境下,改进后的I-TD3算法提高了智能体对经验样本的学习效率,加快了训练的收敛速度,成功规划时的路径也更短,比TD3具有更好路径规划性能。
其他文献
随着科学技术的进步,我国交通运输行业发展尤为突出,其中轨道交通运输业在各方面都具有跨越式进步,积累了大量领先世界的前沿技术。在当下的国民经济快速发展时期,轨道交通运输的压力也越来越大。重载铁路作为大宗商品运输的重要途经,线路距离长且环境多变,面对如此环境,驾驶人员极容易产生疲劳。本文以大秦线上运行的HXD1机车牵引1万吨货车作为研究对象,通过强化学习方法训练出一套重载列车辅助驾驶系统,以缓解驾驶人
随着工业自动化的发展,工业机器人凭借工作效率高、焊接质量好、可重复性高的优点,在机械制造行业得到了越来越广泛的应用,特别是在汽车行业中,白车身的点焊、喷涂等生产任务基本由工业机器人完成。在实际生产中,白车身结构复杂,焊点数量多,焊接任务重。在进行生产线设计时,为提高工作效率,常常会将两台或两台以上的机器人放置在同一工位上,将白车身上的焊点分配至多台机器人,以期减少整个工位的工作时间。但是对于多机器
AT牵引供电系统被广泛用于我国高速铁路供电,牵引网是牵引供电系统的核心组成部分,牵引网故障若故障不能得到及时有效的处理,故障范围将扩大造成严重影响。准确、快速的识别故障类型并确定故障位置有利于铁路工作人员对牵引网的修复工作,能够缩小故障发生时间和减少影响线路。论文提出了一种基于深度学习方法的AT牵引网短路故障的快速识别与测距方案,针对深度学习方法需要数据较多,而AT牵引供电系统输电线路故障数据较少
随着人工智能技术的飞速发展,智能机器人的使用领域愈来愈广泛。SLAM(Simultaneous Localization and Mapping,同时定位与地图构建)技术作为一项协助智能机器人实现自主定位、导航的重要方法,受到了许多研究人员的重视。“视觉SLAM”是指使用视觉传感器来获取外界环境信息的SLAM技术。目前,大多数的视觉SLAM算法在静态环境中使用效果较好,但是如果场景中存在动态的物体
基于视觉的同时定位与地图构建(Simultaneous Localization And Mapping,SLAM)是机器人自主移动的核心功能,主要解决的是机器人中“我在哪?”、“我的周围是什么?”的问题,是机器人实现自主智能化的关键。近些年,基于深度学习的目标检测和语义分割的广泛研究与应用,获取非常精准的语义信息已经成为可能。将环境中的物体的语义信息结合到SLAM系统中,是当前SLAM的热门研究
近年来随着人工智能技术的不断突破和普及,已逐渐应用到各种工业生产过程中。稀土元素作为一种战略资源,渐渐成为一些高新技术产业领域不可替代的角色,对国民经济和社会发展也是举足轻重。为了使稀土资源优势转化为产业优势,对稀土行业就提出了更高的要求。此外,稀土工业过程大时延、非线性、时变、强耦合、多变量等特点使得传统的控制理论和信息处理技术已无法满足稀土行业对先进自动化技术的迫切需求。稀土萃取分离过程中,组
胃肿瘤细胞作为典型的医学图像,是一种小样本数据集,并且胃肿瘤细胞图像复杂、信息冗余,若直接将原始小样本数据带入深度学习进行训练,会出现过拟合、梯度消失等问题。生成对抗网络的出现为解决小样本问题提供了重要的研究方向,即数据增强,通过扩充数据集来解决小样本问题;元学习本身也是用来解决小样本问题,所以研究这两种方法能更好地实现胃肿瘤细胞图像的分类识别。本文的研究内容主要有以下几点:首先,原始的生成对抗网
在这个信息技术不断进步的时代,人们对于图像的分辨率要求越来越高。超分辨率重建作为一种通过软件算法来提高图像分辨率的技术,具有成本低、效果好等优点,在医学成像、卫星遥感和安防监控等众多领域都有重要的作用。随着深度学习的发展,卷积神经网络被引入到超分辨率重建领域,因其复杂数据学习和表示能力强,极大地提高了图像的重建质量。为此,本文提出了两种基于卷积神经网络的超分辨率重建算法,主要研究内容如下:(1)针
高度智能化的机械臂抓取技术一直是机器人研发的重要目标之一。机械臂对于随机移动物体的抓取方法是实现工业生产线由自动化转向智能化所必要的重要功能。本文针对机械臂抓取移动物体的问题,研究了两方面问题。第一,传统基于预测机制的移动物体抓取方法预测精度较差,本文提出了一种结合长短时记忆网络模型(LSTM)和全连接网络结合的预测网络用于物体的移动轨迹预测,提高了轨迹预测准确性。第二,基于预测机制的移动物体抓取
目前我国各行各业快速发展,交通运输业也在以蒸蒸日上的态势发生着巨大变化。高速铁路的建设对于地区的经济发展也带来了越来越好的促进作用,得到了越来越广的支持。在保证列车安全运行的前提下,如何更加智能、方便的提高运行效率和性能成为关注的重点,因此列车的自动驾驶控制已成为高速列车领域的重要研究内容。在列车自动驾驶技术快速发展环境下,本文研究跟踪性能更好的速度跟踪控制方法。传统列车模型未考虑到非线性因素对列