基于强化学习未知环境下的机器人导算法

来源 :燕山大学 | 被引量 : 0次 | 上传用户:yishuiji111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关于移动机器人的研究始终绕不开导航控制,目前有很多优秀的算法应用于机器人导航,取得了众多成果,但这些算法大多依赖环境地图或者局限于理论方面。因此本文的目的在于设计一个不依赖环境地图的端到端导航模型,并提高机器人的实际应用能力,主要研究内容如下:首先,概述课题研究意义和背景,简单介绍了几种传统导航算法原理和局限性,重点分析了强化学习导航原理和应用现状,根据不同的算法方案分析了强化学习在导航领域存在的问题,在此基础上应用传统DQN算法设计了基于深度强化学习的端到端导航模型,并在实验中对比了不同状态参数和网络模型对导航效果的影响,为后续模型改进提供了模型参考;其次,为了解决了强化学习中贪心-随机探索策略衰减率设计困难的问题,提出了一种基于新旧策略的自适应探索方式,利用新旧策略选择动作的不同度来确定探索的比例,从而使得探索和利用更加均衡;再次,针对采用离散奖励函数强化学习收敛慢的问题,对其进行了优化,根据导航算法的目的,把奖励函数设计为包含完成目标和避开障碍物两部分的连续奖励函数,在执行每个动作后都获得对应的一个不同奖励值,改进后的奖励函数使得机器人可以更好的利用环境信息;最后,为了克服机器人在强化学习导航模型下碰撞的问题,改进了动作选取的方式,设计了一种带模糊决策的无碰撞端到端导航模型,改进后的算法模型结合了模糊决策高效避障能力和强化学习对未知环境的学习能力。
其他文献
生物机器人是人类通过生物控制技术施加干预信号调控其运动行为从而实现操纵的生物,是当今世界上新兴的前沿的并融合了多学科的一个高科技研究领域,可广泛应用于灾难搜救、生态监测和反恐侦查等方面。因此,研究生物机器人具有重要的理论意义和应用价值。本课题以鲤鱼为研究对象,研究内容如下:首先,进行了光刺激对鲤鱼视觉器官影响的研究。通过解剖学方法确定了鲤鱼视觉器官及视神经的组织结构;筛选刺激光源的材料;利用检眼镜
当今社会车辆的使用率日益提升,随之而来的交通管控的压力也越来越大。针对车牌进行智能检测与识别可以帮助交管部门快速查询车辆驾驶员信息以及实时追踪嫌疑车辆。随着人工智能和物联网的普及,智能交通逐渐开始扮演重要的角色,而车牌检测与识别算法也通过使用深度学习得到进一步发展。但是由于真实环境存在天气恶劣、光照不均匀、车牌倾斜污损等多种干扰因素,车牌检测与识别网络的性能还有很大的提升空间。本文围绕基于深度学习
光纤传感器以其体积小、适应性强、灵敏度高、可用于多种恶劣环境等优势受到国内外研究学者广泛关注。光纤粗锥结构制备简单并能改善传感器性能,而少模光纤具有模式可控、低熔接损耗等特点,因此研究基于粗锥结构的少模光纤温度传感器具有很好的实际意义。本文在总结粗锥型光纤传感器国内外研究现状的基础上,利用少模光纤制备了四种不同结构的粗锥级联型少模光纤传感器,并对其温度传感特性进行了深入研究,具体内容包括:首先,分
近年来智能化监控系统受到了广泛关注并发展迅速,通过摄像头和无人机对地面情况实时监控,再通过深度学习技术准确估计出人群、车辆、农产品等的数量,在公共安全管理、交通规划和农业种植等方面发挥了重要的作用。但是现有的目标计数算法仍然面临巨大的挑战,如目标尺度不一、密度分布不均匀和网络通用性不强的问题。为了解决这些问题,提升目标计数的准确率,本文进行了深入的研究。首先,由于目标距离摄像机的远近不同,拍摄的图
增值税留抵税额是纳税人已支付但未抵扣完的进项税额。我国过去一直实行留抵税额结转下期抵扣制度。2016年随着营改增的全面推开,进项抵扣范围不断扩大,纳税人的留抵税额呈现总量越积越多,长期滞留的留抵税额导致纳税人资金被占用、资本成本增加、扭曲企业经济活动,不利于企业竞争力的提升。对此,为了促进国内经济增长、减轻企业税收负担,激发市场活力、促进人员就业,2019年我国积极推行"减税降费"惠民、利国
期刊
近年来,自然环境尤其是弱酸性环境对金属材料的早期腐蚀越来越受到人们的重视。光纤腐蚀传感器是在传统光纤传感器的基础上改进,用于采集或传递腐蚀信息的腐蚀检测装置,凭借其结构简单、集成度高、灵敏性强、可实时监测等优点成为近年来腐蚀监测领域的研究热点。本文在总结光纤腐蚀传感器的基本检测方法和国内外研究现状的基础上,设计了多种光纤腐蚀传感器增敏方案,对比分析后选择基于光纤表面等离子体共振(SPR)效应的增敏
遥感影像分类在土地结构规划和国土资源探测等方面起着重要的作用。随机森林分类方法具有鲁棒性好,稳定性高,可应用性范围广的特点,近年来愈发受到人们的重视。如何提高随机森林分类精度,对随机森林分类过程进行整体全面优化成为研究热点。针对这一热点问题,本文从分类特征优选、分类样本选择优化、分类器参数优化三个方面展开随机分森林类优化研究,具体研究工作如下:首先,基于陆地卫星8(Landsat-8 OLI)遥感
贝叶斯网络在不确定性领域中是重要的概率图模型工具,其构建包括结构学习算法、参数学习算法及推理算法,而如何建立高效、准确的贝叶斯网络算法是贝叶斯网络当前的研究热点。针对贝叶斯网络算法在学习中存在寻优效率差、易陷入局部最优的问题,提出两种改进贝叶斯网络算法:基于改进的结构学习算法和推理算法。篦冷机是水泥生产的重要设备,用于冷却熟料和热量回收,由于篦冷机工艺参数多且参数间影响关系的不确定性导致对篦冷机进
人脸图像去模糊任务,致力于在模糊核未知的情况下,从已知的人脸模糊图像中复原出潜在的清晰图像,属于人脸图像复原的一个重要的研究方向。清晰的人脸图像对于人脸识别等高级图像处理任务以及刑事侦查等实际任务有至关重要的作用,故该文致力于提高人脸图像的质量。首先,为了更好地应用面部语义信息,该文设计了基于面部语义信息的人脸图像去模糊网络。该网络通过语义分割子网络获得面部语义掩模,通过语义类去模糊子网络更好地恢
星载P波段合成孔径雷达(Synthetic Aperture Radar,SAR)具有较强的穿透性且对生物量敏感,因而此波段成为探测地表、植被等隐藏目标的有效手段。然而,由于P波段的SAR信号受到背景电离层色散特性和电离层不规则体随机起伏特性的影响,因此雷达图像散焦严重。在雷达成像中,如果在硬件上提高雷达图像分辨率,会增加生产成本,因此从成像算法的角度提高图像质量成为最合理的方法。本文旨在利用深度