面向智能体协作的强化学习方法研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:aerostock
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习作为人工智能领域的新星,成功地解决了序列决策问题。它与机器人结合,有利于非结构化环境的操作任务。随着实际任务的复杂化,突破单个机器人能力的限制亟待解决,因此智能化的双机械臂的协作应运而生。本文以多智能体强化学习为算法框架,针对该领域探索以及数据利用等问题,以具备协作策略的双机械臂作为研究对象,旨在实现机器人合作以及自主抓夹的相关问题,并从算法优化的层面展开深入探讨。主要内容包括以下四个方面:(1)探讨了强化学习算法训练初期存在大量无效数据问题,提出了基于多智能体协作策略的事后经验回放技术(M-HER)。以虚拟目标替换经验池中随机数据,解决了稀疏奖励下的多目标问题,帮助机器人初期获取大量有效操作技巧,有利于策略更新。(2)研究了高维连续空间问题,提出了基于模仿学习的协作策略(RTLf D)。在驱动机器人自身探索的同时,利用少量专家数据引导,两者兼备不约束于专家数据,高效解决了多智能体从零开始学习的不足。针对实际收集专家数据存在的错误及不完美序列等问题,提出了裁决机制,以区分专家数据的优劣,获取稳定的策略。仿真测试验证了算法的有效性,表明了模仿协作和裁决机制能够帮助机器人形成高效的策略。(3)在模仿学习机制的强化学习框架下,提出了以生成对抗网络为奖励驱动的多智能体模仿学习算法。以同步策略作为机器人与环境互动的核心,稳定输出策略,并提出了具有两种子结构的好奇心模块,基于内部奖励驱使机器人探索更多新的状态与动作,在专家策略的基础上搜寻最优的策略。为防止过度探索,提出了参数共享、值截断、时间截止三种方法,以约束机器人探索范围和提升实际表现。(4)分析了机器人协作特性,搭建了仿真实验环境,定义了框架中观测与动作空间。开发了基于算法环境的接口,用于信息互动。探讨了从仿真模型到真实机器人之间的差异,利用区域随机化技术,获取了抗干扰的模型,并用于真实机器人操作。综上所述,本文以多智能强化学习为基本目标,从增加数据利用率、加快训练速度以及提升探索能力三个方面着手研究,高效训练机器人形成协作策略。
其他文献
传统菜市场是居民日常购物消费的公共场所,是社区邻里交流的重要平台,也是最具烟火气和城市记忆的地方。但由于人们购物方式的转变、购物体验需求的提高、用户需求的转变、物流方式的变革及城市化进程的发展和“农改超”政策等影响,加上传统菜市场的环境卫生不达标、基础设施不完善及服务质量低下等内部问题,降低了消费者对其体验的满意度与认可度,导致传统菜市场逐渐失去活力,面临着巨大的生存危机。本课题研究了近年来国家级
随着互联网技术的快速发展,以及近几年共享经济的兴起,新模式的O2O物流平台也应运而生,并在近几年得到蓬勃发展。物流平台的买方(需求方)和卖方(提供方)不仅关心价格,而且对彼此之间的空间距离十分敏感(因为距离越长,服务等待时间就越长),目前对于双边市场的所有研究中都没有将平台两边的空间距离纳入到研究中来,因此传统的双边市场模型已经不再适用于O2O物流平台这一领域,整个物流平台的收费定价问题亟待解决。
胶体光子晶体(胶体晶)具有特殊的周期性微纳结构、光禁带及结构色,这使其在显示、印刷、检测及防伪等领域具有广泛的应用前景。传统胶体晶的制备方法存在组装条件苛刻、耗时、无法宏量制备等问题,限制了其应用范围。发展简单、高效的方法用于制备具有新功能的响应型胶体晶并拓展其应用范围仍是一项巨大挑战。本论文共分为五章。第一章:绪论。第二章:SiO2-聚乙二醇甲基丙烯酸酯胶体晶的制备及其对溶剂检测的研究。第三章:
人体脊髓损伤会导致神经源性膀胱,损伤膀胱运动功能和感觉功能。对于膀胱感觉功能受损患者,目前临床常采取间歇清洁导尿措施将膀胱尿液排出体外,但频繁导尿会使患者痛苦,且导尿管容易引发下尿路感染。因此,研究膀胱尿液容量或压力监测装置,从工程学角度重建患者的尿意具有重要的现实意义。针对现有膀胱尿液容量或压力监测系统存在结构复杂、损伤膀胱组织、电池供电寿命短、无线供电功耗大和易受空间位置影响、难以在人体多姿态
21世纪互联网新媒体技术的革命给广告行业带来巨大变革,以H5广告为代表的新媒体广告呈现一片繁荣态势,从H5广告初期以创意玩法为主到现在以内容为主、形式为辅新阶段,此视阈下的H5广告从“创新玩法”转向品牌故事的趣味性与情感互动的“叙事传播”。营销机构利用H5技术和媒介特性讲述品牌故事,借助“移动+社交”分享的传播机制,从而形成良好的传播效果。本文的研究目的是探讨H5广告的叙事传播策略,从而指导H5广
应力状态是评价工程构件是否安全和可靠的一项重要指标。金属薄板结构在加工制造过程中往往会在其表面和内部产生残余应力,而在服役过程中又通常会承受各种外界作用力。过大的应力会使薄板产生变形,而且在腐蚀环境作用下容易产生应力裂纹,严重影响整体结构的正常工作。因此,定期、准确的应力测量对于保证在役薄板的安全与稳定是非常重要的。在现有应力无损检测技术中,超声法已被证明是一种有效的应力测量方法。但是对金属薄板的
马蹄焰玻璃窑炉是生产玻璃的热工设备。蓄热室作为一种马蹄焰玻璃窑炉的典型的能源回收设备,在热工领域上发挥重要作用。对蓄热室进行能效优化有利用节省成本和保护环境。如何实现蓄热室模型的构建和优化是解决其能耗问题的关键。目前,蓄热室的建模方法主要有实验法、解析法和数值模拟法。实验法因其材料和人工成本,存在不足。解析法因数学公式难以精确表达蓄热室物理过程,也有不足。数值模拟法只需在计算机上进行,方便实现的特
随着工业生产的发展,机器人的离线编程与示教逐渐满足不了工业要求。目前生产线从单一化产品生产向多元化产品混批生产转变,而且人机协作的要求也逐渐增多,因此也产生了工作环境包括了人的变化以及动态的生产线,缺乏灵活性的传统机器人局限性越发明显。因此增强机器人的智能化程度是机器人在工业生产线应用的一个重要环节。而视觉作为机器人的一个主要感知来源,深度学习能赋予机器人学习认知的能力,能够解决生产线上的工件位置
随着科技的发展,学生的专注程度自动分析正在成为人工智能和教育领域的一个重要交叉课题。它可以应用于人工智能辅助教育、仿人服务机器人、机器人学伴或机器人老师等智能交互系统中,通过智能系统来判断学生的学习状态,并向教师或家长提供反馈,或作为人机交互的某种决策依据。相比于传统的人工识别方法,以及基于单一信息的识别方法,利用多特征融合策略结合机器学习的自动专注度识别方法具有明显优势。但是,专注度自动识别是一
作为地球的一员,在享受大自然带来福报的同时,更应当学会对大自然的保护,促进自然资源的可持续发展。生活垃圾的处理与环境保护息息相关,作为城市的居民,应当做好生活垃圾分类,为环境保护贡献一份力量。但随着生活垃圾种类不断增多,不同城市生活垃圾分类标准存在差异,这成为目前生活垃圾分类最大的困扰。本文在此背景下,为生活垃圾分类建立深度学习模型,并不断对模型进行改进和优化,最后将模型部署在移动设备上,帮助人们