用于深度强化学习的机器人拓扑状态表征

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:wfj0808
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在强化学习的背景下,训练效率随状态空间的大小呈指数级衰减,尤其是在具有连续动作空间的机器人控制领域中,高维连续的状态空间和动作空间使得在真实环境下应用强化学习算法训练机器人学习实时控制策略变得困难。为了解决在高维连续搜索空间中数据利用率极低的问题,研究人员们尝试了很多方法,例如通过生成更多的好数据指导智能体学习等。但是如何设计易于优化、能够有效表达领域知识的状态空间表示一直是一个开放性的问题。得益于李群元素对空间中旋转、平移等变换的描述能力及其具备的良好特性,本文提出了一种引入机器人拓扑结构约束的状态空间表示,利用李群元素构建机器人各关节的相对几何模型,将已知且稳定的机器人拓扑信息作为约束引入状态空间,提升在该空间下学习最大化奖励函数的策略分布的效率,并在三个实验场景下验证了本文所提出的状态空间构建方法的有效性。论文的主要研究成果如下:·本文提出了应用特殊欧式群对关节串联的机械臂及其组合构建具有拓扑结构约束的状态空间表示方法。通过实验验证了在该方法构建的状态空间表示下,强化学习算法的训练速率显著提高。此外,本文的方法具有一定的普适性,可以应用于与机器人运动状态相关的各类任务场景下。·本文提出了应用特殊欧式群对具有复杂结构的双足仿人机器人构建含拓扑约束的状态空间表示方法。从对复杂移动机器人建模开始,详细演示了对移动机器人应用本方法的过程。应用监督学习的方法验证了在相同训练数据下,在该状态空间表示下的神经网络的收敛速度更快,证明了引入拓扑结构信息更利于神经网络的优化。·本文利用模型简化测试对状态空间表示模型进行了有效性测试,详细分析各实验结果,并根据分析对该状态空间构建模型进行优化,在保持相同效果的情况下简化了本文提出的状态空间模型。
其他文献
汽车产品的设计、制造、维护等环节将产生大量的数据,使用机器学习技术挖掘汽车大数据所蕴含的价值,对于推进汽车行业数字化转型具有重要意义。在故障预测等任务中,汽车大数据常存在类别不平衡的特点:数据集内不同类别的样本数量有明显差异,少数类被错误分类的代价相比多数类被错误分类的代价更高。类别不平衡的特点使得机器学习模型对少数类的学习不够充分,在预测时难以识别出少数类样本的存在,给故障预测等任务带来高昂的分
移动操作机器人兼顾移动性与操作性,既具有移动机器人的建图、导航等功能,又能使用机械臂完成抓取等任务,是当前机器人领域研究的热点。但是对于复杂环境下的复杂任务,仅凭单一的传感器很难达到很好的效果,综合运用多种传感器可以更好的完成任务。本文针对移动操作机器人,通过激光和视觉传感器进行了建图、感知、导航等方面的研究。首先,建立了融合SLAM框架,以视觉的ORB-SLAM2为基础,使用激光进行扫描匹配为视
在经济全球化,工业4.0及可持续发展的影响下,国内各个制造企业都面临着转型升级的巨大挑战,尤其是最近几年,汽车市场中新能源汽车、互联网汽车、以及无人驾驶汽车等很多新产品的出现,使得汽车的更新换代和产品升级周期明显缩短。所以,对于汽车制造企业来说,生产线以及生产线的物流调度需要满足柔性化生产,而汽车的底盘生产线,由于其工艺选装的组合类型多,对柔性化的需求更加迫切。自动导引小车(Automated-G
随着多智能体编队在救灾、军事、工业领域应用需求的快速增加,多智能体系统面临在各种不确定的复杂环境下实现编队控制的问题。目前针对障碍环境下多智能体编队控制问题已经有较多的研究工作和成果,但是主要针对较为简单的障碍环境。实际编队中地形复杂、局部环境未知等问题导致了多智能体协同编队控制中避障约束、编队约束的动态变化,如何在协同机制下建立具有动态预报和自适应能力的编队控制策略是亟待解决的关键问题。本文将在
创新科技与技术的蓬勃发展推动了第三次工业革命,其中信息通信技术的进步与发展表现突出。无线通信技术的不断提升以及无线设备的不断完善使得在工业自动化生产和管理现场中,使用无线设备和无线通信技术的范围越来越广。由此产生了由现代工业控制网络和无线通信网络构成的工业网络系统。尽管无线通信技术和设备可以部署到有线网络难以进入的区域,实现了无盲区覆盖以及低成本的无间断监控等有利于生产或管理现场的功能,但是与有线
叶片作为旋转机械最重要的部件,其振动状态的实时监测对旋转机械的安全运行非常重要。叶尖定时方法(blade tip timing,BTT)作为一种非接触式测量方法在旋转机械叶片振动监测中有着良好而广泛的应用,但由于其存在非均匀采样、欠采样等问题,对信号的重构造成了一定的困难。本文利用BTT信号频域上的稀疏性,提出了一种基于压缩感知的信号辨识方法,具体内容如下:1)基于旋转机械叶片振动理论和叶尖计时系
随着我国城市建设规模的不断扩大以及城市人口的快速增长,城市轨道交通的地位也变得愈发重要。在城市轨道交通客流运输过程中,存在许多不可测的外部因素。这些因素轻则导致列车延误,严重情况下甚至会产生连带反应从而使得整条线路的列车运行网瘫痪,给城市轨道交通的正常运转带来很大的阻碍。因此对延误列车进行运行调整具有相当重要的意义。城轨列车运行调整是一个复杂的组合优化问题,目前对于城轨列车运行调整的研究主要集中在
故障诊断系统是提高工业过程安全性、稳定性,减少因故障停机带来经济损失的一类重要技术。本文研究了基于有效特征表示与迁移学习的工业故障识别,采用不同的特征提取算法与故障识别算法相结合,利用目标任务与源任务的相似性,不同程度的优化了目标故障识别任务的准确率。本文主要的研究内容包括:基于深度自动编码器的特征提取与故障识别。该方法将深度自动编码器与多层网络分类器相结合,自动编码器能够有效地提取出非线性复杂工
随着工业机器人技术的发展,机器人已被广泛的应用于工业生产制造环节中,对于需要灵活部署、机器人操作不方便的生产场景,人机协作的生产模式是一种有效的提高生产效率的方式。因此,研究机器人在保障操作人员安全的前提下,如何在复杂多变的协作环境中进行避障规划,完成规定的生产任务具有重要意义。本文针对人机协作装配应用场景,围绕空间动态障碍物检测和机器人主动避障规划方法展开研究,具体研究内容包括以下四个方面:(1
鉴于建筑内消防设备需处于待工作状态,能实时了解动力情况的要求,论文实现了一种基于物联网的建筑消防动力设备监控系统。论文首先针对动力设备电源状态的在线测量要求,对供电状态测量方法进行分析研究,对交流信号有效值算法进行对比分析,提出一个多周期等间隔算法来实现设计中的电量交流有效值的采样测量,设计了相应的软件算法,并在计算机中进行了仿真验证。其次,为了实现对电量状态的实时监测,设计了一款以ARM微处理器