基于强化学习的物体抓取方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：lijing202740

【摘要】

：

当前是智能化的时代,无论是对于传统的工业机器人,还是对于目前技术并不太成熟的服务机器人,都提出了新的挑战。而作为机器人的一项非常重要的能力,机械臂抓取物体一直是国内

【作者】

：

刘开宇

【出处】

：

哈尔滨工业大学

【发表日期】

：

2004年期

【关键词】

：

机器人抓取强化学习抓取卷积神经网络仿真实验

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

当前是智能化的时代,无论是对于传统的工业机器人,还是对于目前技术并不太成熟的服务机器人,都提出了新的挑战。而作为机器人的一项非常重要的能力,机械臂抓取物体一直是国内外研究的热点。随着深度学习的不断发展,基于计算机视觉的方法虽然已经有很高的抓取成功率,但其效率和鲁棒性较差。强化学习的抓取方法能够在物品种类繁多且位姿任意摆放的环境下,通过自监督学习的方式有效的完成抓取任务。首先,阐述了基于计算机视觉的传统抓取方法和强化学习的基本原理,并且根据目标策略和行为策略的异同,分为在策略和离策略。在策略只利用目前已知的最优选择,容易收敛到局部最优。相反,离策略通过保持探索,得到多样化的数据,来到达局部最优。基于离策略的TD3算法在Mujoco环境中有较好的效果,但是却并不适用于机械臂抓取任务。利用无导数优化方法CEM代替TD3中的确定性策略(CEM-TD3),解决了TD3算法中环境奖励稀疏的问题,使其更适用于物体抓取工作。其次,针对CEM-TD3算法中的Q函数进行网络结构设计。抓取模型以卷积神经网络为主要结构,输入层分为状态和动作,状态需要经过卷积层提取特征,动作则经过全连接层后与其相加,输出为Q值。使用池化层、批量归一层、随机激活等手段进行网络结构的优化;对于物体抓取奖励稀疏性的问题,将损失函数设置成分类问题的交叉熵函数;使用奖励惩罚的方法,加速网络的训练;通过增加网络输入的状态信息,提高抓取成功率。算法先积累一定的经验池,然后一边存储一边进行训练,并阶段性的测试验证。最后,利用bullet物理引擎搭建仿真实验平台。实验设置在训练过程每次随机摆放5个训练物品,任意物品到达指定高度即算抓取成功。验证算法效果则选择训练中并未见过的测试集物品,重复100次计算成功次数。用实验验证算法的可行性和闭环控制系统的稳定性。

其他文献

换热管污垢超声时域检测信号处理研究

换热设备广泛应用于冶金、电力、化工、航空等工业生产领域。随着换热设备运行,在管壁会逐渐形成污垢,污垢的存在将导致换热设备传热效率降低,增加能源消耗,同时也会给换热设

学位

变分模态分解超声时域反射信号降噪自相关函数能量熵

含离子液体基元齐聚物对聚乳酸及其共混物结构与性能的影响

本文通过溶液共混的方法制备了聚乳酸(PLA)/含离子液体基元齐聚物(IL)和聚乳酸(PLA)/聚己内酯(PCL)/IL共混物试样。利用差示扫描量热仪(DSC)、偏光显微镜(POM)、X射线衍射仪(

学位

聚乳酸聚己内酯离子液体聚集态结构相界面

基于短时谱估计的VHF语音增强技术研究

随着民用航空的迅猛发展,飞机数量日趋增多,飞行流量不断加大。若同一时间同一空域的飞机航线密集,很容易造成空中交通拥堵,严重时可能诱发事故。因此,对民航管制的要求也越

学位

VHF脉冲噪声最短时间门限能熵比语音存在概率

湘江战役：理想信念在战火中闪耀

习近平总书记在参观红军长征湘江战役纪念馆时深刻指出，湘江战役是红军长征的壮烈一战，是决定中国革命生死存亡的重要历史事件。在湘江战役中，处处闪耀着中国共产党人理想信念的光芒，无数先烈用顽强的斗争和不屈的意志证明：艰难可以摧残人的肉体，死亡可以夺走人的生命，但没有任何力量能够动摇中国共产党人的理想信念。在生死存亡的历史关头彰显铁的纪律　　1934年11月，中央红军在连续突破国民党三道封锁线后，在湘江边

期刊

湘江战役红三十四师陈树湘理想信念

3-PUU并联机器人机构误差及弹性动力学研究

在中国制造2025的影响下,工业机器人和智能化产品的发展也越来越迅速。机器人作为新时代的重要发展领域,也是现在社会上流水线上常用的机械设备。目前很多危险、高强度的工作

学位

3-PUU并联机器人机构误差弹性动力学灵敏度参数化分析

基于压缩感知的分布式光纤稀疏宽频振动信号传感技术

分布式光纤传感技术在大型设施健康安全监测领域有着越来越多的应用,其中φ-OTDR技术依靠其对振动信号的实时感知和处理能力,适合作为需要特性如长距离,大范围,实时性的设施

学位

分布式光纤传感压缩感知匹配追踪宽频振动振动定位

基于机器学习的商品评分预测

随着当代互联网技术的飞速发展和互联网信息的快速传播,推荐系统已经成为帮助用户获取有效信息的重要手段。协同过滤算法是推荐系统最常用的技术手段,但是传统的协同过滤推荐

学位

推荐系统评分预测矩阵分解卷积神经网络模型融合

复值飞蛾优化算法性能比较分析及应用研究

飞蛾优化算法(Moth-flame Optimization Algorithm,MFO)模拟了飞蛾在月光下飞行时横向定位的导航机制,是一种基于螺旋飞行的新型优化方法。该算法由于其结构直观,易于操作,搜

学位

飞蛾优化算法复值编码复值元启发式算法能量分段策略软件代价评估函数优化

面向符号数据的高效特征选择算法研究

随着大数据时代的来临,人们日常的生产生活中每天都在产生着海量规模的数据集,如何高效地从这些数据中获取知识是目前众多专家学者广泛关注的问题。数据挖掘是指从海量的、不

学位

特征选择符号数据粗糙集信息熵

基于深度学习的无线电传播环境识别研究

经济社会的快速发展推动了无线电业务需求的爆发式增长,但同时也带来一些问题。它即表现在无线电频谱资源的紧张,也表现在无线电传播环境的日趋复杂,这种环境的多样性给电波

学位

传播模型环境识别深度学习卷积神经网络

基于强化学习的物体抓取方法研究

其他学术论文