改进的强化学习算法研究及其在机械臂控制中的应用

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:huangwei0541
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
控制机械臂在不确定环境下完成特定复杂任务一直以来是一个非常具有挑战性的问题。传统控制方法往往十分依赖系统模型,然而该模型常常具有高阶次、非线性、多变量和强耦合等特点,很难使机械臂系统具备良好的适应性及一定自主性。强化学习作为一种人工智能技术,因其具备在未知环境下,通过系统与环境的自主交互,进行策略学习的能力受到了国内外学者的广泛关注,成为机器人和控制领域的研究热点。本文将研究改进的强化学习算法及其在机械臂控制中的应用。将现有强化学习算法直接应用于机械臂运动控制仍存在着诸多问题和挑战:首先,大多数强化学习算法考虑离散的状态空间,对于机械臂系统这种高维连续状态空间问题容易出现维数灾难。其次,现有方法依大都赖于高样本复杂度,而在实际中机械臂与环境交互的代价是不能忽视的。另外,针对不同控制任务需要人为设计奖励函数,而设计一个好的合适的奖励函数往往十分困难。最后,现有强化学习算法稳定性较差、较难收敛,容易受超参数影响。本文基于强化学习框架,分别对基于模型(Model-based)和无模型(Model-free)的方法进行了阐述和讨论,针对不同操纵任务提出相关强化学习改进算法并进行仿真验证,以提供一种可行的解决思路与途径。本文的主要工作和成果如下:1)首先,回顾了强化学习近年来的发展情况及其在机器人领域中的应用。其次,介绍了强化学习问题的数学描述:马尔科夫决策过程(Marcov decision process,MDPs),并给出基本MDPs问题的两种迭代求解方法。最后,介绍了机械臂的模型,给出了拉格朗日动力学方程,为后续的算法验证提供基础。2)针对未知动态环境下的最优控制问题,提出了一种基于局部模型的强化学习算法。考虑学习过程中的样本复杂度,采用微分动态规划以提高策略学习效率。为了对环境不确定性进行更好的建模引入了概率模型表示。同时,针对迭代线性二次高斯算法稳定性差、难收敛问题对其进行了改进,通过采取对新旧轨迹进行约束的方式来稳定训练过程,加速算法收敛。3)针对未知环境下的复杂操纵任务,提出了一种基于最大熵的无模型离策略(Off-Policy)深度强化学习算法。首先,考虑传统无模型深度强化学习算法样本复杂度极高,依赖长时间训练,通过引入一种新的经验回放技术,使得样本利用率显著提高,大幅缩短训练时间。特别地,由于该技术的引入,还使得算法适用于奖励函数为稀疏、二元化的情况。另外,针对算法稳定性差的问题,采用了最大熵框架,使得策略更新的目标不仅要最大化期望奖励,同时还要使策略的熵最大化,该模型能够更好地解决“探索与利用”问题,使得训练过程变得更加鲁棒和稳定。论文通过计算机仿真的方式,验证了所提出方法的有效性。最后,对全文进行总结,并对进一步的研究提出一些展望。
其他文献
在现代的司法裁判中,要求事实的认定具有可证立性,即应当提供充分的理由来支持事实认定的真实性。本文主要是在裁判事实认定领域,探讨事实认定在什么条件下才算符合真实性的
近些年来,随着科技的进步发展,高分子复合材料也在日新月异的发展,现在导电高分子材料引起了越来越多的研究学者关注。导电高分子材料可被用于防静电,吸波以及光电等方面。目
置换法开采是现有天然气水合物开采方法中最具有应用前景的技术,可以同步实现甲烷(CH4)开采与二氧化碳(CO2)埋存,并且能够保持地层稳定。但目前置换法的开采效率和能效较低,开采
本文提出了一种新的选址问题,考虑在全国范围内选择合适的地区召开全国性的大型现场见面活动.该问题不同于会议的选址模型:参加会议的人员是固定且已知的,只需要建立会议成本最低的模型.而对于本问题,参加现场活动的人员是不确定的:人们根据召开活动的地点而决定是否参与现场活动.该问题也不同于二维市场的商铺选址模型:商铺数量多且有高度可替代性,而本问题中的大型现场活动在短时间内是唯一且不可替代的.因此,为了使召
五当召是清代著名的藏传佛教寺庙,对内蒙古西部地区宗教、经济、文化的发展有着重要的影响。学界从不同的角度对五当召进行研究且成果颇丰。如,在文史资料中对五当召整体的研究;在佛教史研究著作中从不同层面介绍五当召,还有研究五当召经济、建筑、旅游等方面论文亦有之。遗憾的是,学界对五当召牧场、属民的来源方式及纠纷始末、五当召政教隶属关系的变更、五当召“学问寺”的原因及其表现等方面的研究不够深入,且系统研究相对
茶叶是中国的经济作物,中国是世界上第一产茶大国。茶叶含水率是评估茶叶制造过程中质量的重要指标。茶叶在加工过中呈堆叠状分布,含水率实时变化,且即时的含水率与连续生产
随着人工智能的迅速发展及其应用在人们日常生活中的广泛普及,计算机图形学也成为研究的热点问题之一。图形匹配作为计算机图形学的研究基础在人脸识别、自动驾驶和医学影像等方面都有着很重要的作用。图形匹配主要分为刚性匹配和非刚性匹配。现阶段刚性图形匹配的解决方法已经成熟,但非刚性图形匹配还有很多问题需要我们去解决,其中内蕴对称图形的匹配问题就是难点之一,因为在基于特征匹配的算法中,现有的特征描述子无法很好的
滚动轴承-转子系统作为传动系统的重要组成部分和旋转机械的核心部件被广泛应用于各类高端设备中。转子系统的振动特性影响着高端设备的安全性与稳定性。因此,研究转子系统关
民族教育在我国高等教育体系中具有重要的战略意义,其本身的民族性特征使得民族院校在认真贯彻落实党中央国务院重要战略决策部署,落实好国家少数民族相关政策,围绕做好民族团结教育,抓好民族地区人才培养,保护和传承民族文化,促进民族地区社会经济发展,维护我国社会和谐稳定,实现民族大家庭共同发展中具有重要作用。由于民族院校的培养客体和管理对象存在特殊性,这对民族院校学生管理方式、学生教育形式、学生培养模式等方
2018年6月21日,改革开放40年来,首次召开了全国本科教育工作会议,会上,教育部部长陈宝生强调:一定要把本科教育放在人才培养体系的核心地位、一定要把本科教育放在教育教学的基础地位、一定要把本科教育放在新时代教育发展的前沿地位。高校学生评教制度是大学教学质量保证的重要体系,在实施的30多年的历史中,它在保障高校教学质量方面,起到了非常重要的作用,已成为高校内部质量保证体系不可或缺的一部分。高校学