基于深度强化学习的高效率机器人自主学习方法研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:thp2860051
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度强化学习(Deep Reinforcement Learning,Deep RL)是人工智能领域的一项新兴且热门的技术研究,其以通用形式将深度学习的感知能力和强化学习的决策能力相结合,关键特点是通过端到端的自主学习方式,实现从高维度的原始数据输入到决策输出的直接控制。基于Deep RL的机器人自主学习技术能够根据输入传感信号直接进行控制,能赋予机器人更简易的编程方式并具备强大的泛化能力,是实现机器人智能作业的重要途径。目前基于深度强化学习的机器人自主学习已经获得突破性进展,但仍然存在样本复杂度高、学习时间长、学习效率低等问题,难以将其广泛应用于现实机器人操作场景。本文综合分析前人在Deep RL与机器人技术相结合的方法与应用,针对机器人自主学习在高维连续状态与动作空间下,传统Deep RL算法在基于稀疏型奖励引导的多目标操作任务所面临的样本复杂度高、学习难以收敛等问题,提出一些改进算法与方案,以提高机器人自主学习效率与操作的稳定性。本文的主要研究内容包括以下几个方面:1.针对机器人自主学习的效率低下、不稳定与策略缺乏泛化能力等问题,提出了不变性转换经验回放(Invariant Transform Experience Replay,ITER)的机器人学习框架,该框架的核心思想是在不改变所采样到的转移样本的动态规律的前提下,对所观察到的转移样本进行数据增强,产生出更多有效的转移样本,以提高样本利用效率。2.基于上述所提出的机器人学习框架,设计出两种子算法:首先是基于空间转换不变性的万花筒式经验回放(Kaleidoscope Experience Replay,KER)算法,其对机器人状态信息进行对称及旋转等空间不变性经验回放映射,以增强该数据集动态规律的泛化性;其次是基于多目标操作任务与稀疏型奖励导向的目标增强经验回放(Goal-augmented Experience Replay,GER),其利用任务成功所定义奖励函数的松散性,对从经验池中随机抽取的状态转移样本中的目标变量进行数据增强,克服Large Batch更新效率低下的问题。3.搭建了用于理论验证的仿真实验平台,通过多项不同的机器人操作任务对本文所提算法展开了仿真实验验证,分析并总结其相比于现有经典算法在学习效率与学习稳定性方面的性能优势。实验结果表明本文所提算法相比现有经典算法,在同等实验条件下对机器人在多项不同操作任务中的学习效率提高了5至13倍;并且在具有障碍物的机器人操作任务中取得了突破性的学习表现。4.根据学习过程中所发现的病态学习现象提出3种原因假设,并展开理论分析,最后从理论与实验上验证了是深度确定性策略梯度算法而非万花筒式经验回放算法导致了病态学习现象,进一步证明了本文所提算法的适用性与稳定性。5.最后,借助ROS系统搭建了真实Baxter机器人控制系统,该系统的控制策略为基于不变性转换经验回放算法所学习到的Deep RL策略,并基于此进行了最为经典与常见的机器人操作任务实验——“拾取与放置”,结果表明了所提方法在真实机器人上应用的有效性和可靠性。
其他文献
SBS改性沥青由于其优秀的高低温性能被广泛应用在道路工程中,但是存在着抗老化能力不足及储存稳定性差的缺点。近年来,纳米技术在交通材料领域的应用日益广泛,纳米材料改性沥青就是其中一种。作为目前性能较为优异的纳米材料之一,由于碳纳米管中存在大量共轭π键和环状结构,将其掺入到SBS改性沥青中进行改性,能够改善SBS改性沥青原有的缺点,进一步提升其路用性能。论文采用高速剪切法制备了不同掺量的碳纳米管/SB
在石油化工行业中流化催化裂化(FCC)装置是空气中氮氧化物(NO_x)的重要来源之一,随着国家对于环境保护问题的日益重视,对NO_x污染物的排放要求越来越严格。目前广泛应用的FCC再生烟气脱硝催化剂具有活性温度窗口较窄、容易中毒等缺点。研究具有更宽的活性温度窗口、良好的抗硫中毒性能的FCC再生烟气脱硝催化剂势在必行。本文旨在制备具有良好抗硫抗氧中毒性能的脱硝催化剂。采用过饱和浸渍法制备了一系列负载
2019年湖南卫视推出的体验式真人秀节目《中餐厅3》上线播出后,受到了广泛的关注,该节目的制作,顺应了“讲好中国故事”的时代要求。该节目将中华美食与真人秀节目巧妙融合起来,聚焦于中华传统美食文化在国外的传播,在为大众提供休闲娱乐的同时,传播中华传统美食文化的魅力,成为一档广受好评的节目。而体验式真人秀《中餐厅3》中,明星嘉宾们在节目中所扮演的角色受到观众的热议,受众在观看节目时关注点从节目中宣传的
随着电力电子技术、直流分布式电源和直流负荷的发展以及直流配电网相较于交流配电网在输送容量和电能质量上的优势等诸多因素,直流配电网逐渐成为研究热点。交直流配电网作为由交流向直流转变的过渡阶段,对其运行优化的研究是保证系统安全经济运行的重要前提。首先,介绍了交直流配电网的结构,建立了换流器稳态潮流模型,以双参数Weibull分布和Beta分布来模拟风速和光照强度,从而得出风电和光伏出力的概率分布,用确
随着国民经济和城镇建设的高速发展,地区之间的交通量急剧增加。近年来,我国一些已建的四车道高速公路已逐渐不能满足日益增长的运输需求。为了能更好的服务国民经济,这些高速公路迫切地需要进行改扩建。在对高速公路进行改扩建的时候,往往会出现路基病害,而其中最主要的路基病害是新老路基的差异沉降。新老路基的差异沉降如果不加处治,轻则影响路基质量和行车安全,重则影响社会经济发展。因此有必要对新老路基的差异沉降特征
残疾人作为特殊群体,处于较为弱势的社会地位,需要他人和社会给予特别的关注与关爱。婚恋是满足个人情感需求的重要载体,恋爱与结婚是每个人都平等拥有的权利,家庭对于残疾人的支持意义更为重要。残疾人由于自身生理、心理及社会环境等原因存在着择偶难的困境,然而社会以往关注残疾人最多的便是就业、社会保障、康复这几方面,而残疾人的恋爱和婚姻需求却往往被忽视。目前国内外学者对残疾人婚恋问题的研究多侧重于从宏观角度出
2013年,习近平总书记提出共建"一带一路"倡议,为改善全球经济治理和构建人类命运共同体贡献了中国智慧和中国方案。中国的"朋友圈"越来越大,但国际传播能力以及影响力还有待
会议
近年来,随着我国经济的快速发展,人们不断追求更高的生活质量,对中央空调的需求日益增长。中央空调系统作为现代建筑的一个重要组成成分,虽然改善了人们的生活和工作环境状况,但是消耗了大量的能源,其能耗所占比例超过了建筑总能耗的一半。中央空调系统主要包括空气处理系统和水系统,其中水系统能耗占据中央空调系统总能耗的比例很大,因此进行中央空调水系统的节能优化研究具有非常重要的意义。通过阅读国内外相关的文献,了
随着航空技术的发展,无人机的使用得到人们越来越多的青睐,其中利用无人机获取地物信息成为目前的主流手段,如何从这些海量航拍图像中高效地识别有用信息,成为目前研究热点。在近几十年中,道路识别一直是众多学者研究的热点方向。道路不仅在智能交通系统、地质灾害分析和城乡规划等领域应用广泛,而且为国家军事作战提供重大帮助。虽然航拍图像道路识别近些年取得了一些进展,但其道路识别精度受到一些因素的影响,其主要因素如
教学能力是教师必备的能力,教学能力决定了教师的教学效果。教学能力需要在不断地学习和实践中逐步提升,而新入职的教师由于缺乏教学经验,达不到理想的教学效果,与其他教龄久的教师相比有所差距。因此,作为新教师应该重视提升自身的教学能力,争取在教学中取得更好的成绩。本研究旨在解决以下问题:(1)中学化学教师教学能力的构成问题;(2)中学化学新任教师教学能力的现状如何;(3)探究提升新任教师教学能力的策略。本