基于生成模型的世界模型建立与智能决策算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:a53825777
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
智能决策一直是机器人的关键技术之一。当前机器人技术的应用正面临着从面向结构化的工厂环境和任务转换到面向如家庭室内、办公楼、马路、野外等复杂日常生活环境及多变任务的考验,对机器人的智能化程度提出了更高的要求。现有的智能算法开发模式依赖于研究人员对环境及机体的提前建模,对于新的环境和机体往往需要重新建模,因此不具有通用性,开发成本巨大,无法适应未来行业中对于智能的大量需求。本课题旨在以智能决策算法的通用性为目标,探索智能决策问题的一般化描述方法与解决方案。首先,基于强化学习中常用的POMDP过程建立智能决策问题的通用数学描述,并通过对其进行分析,将智能决策算法等价于信息的提取与利用。利用信息论对环境中信息的分布方式进行分析,最终基于世界模型概念得出解决智能决策问题的一般性框架,将世界模型按照提取的信息类型不同拆分为感知抽象和状态预测两个过程。并基于Mo Jo Co仿真平台,选取了5种典型的视觉控制任务作为本文的验证平台。其次,推导感知抽象过程与生成模型之间的关系,利用POMDP过程中的内部约束,将感知抽象过程转化为生成问题,并基于变分自编码器对感知抽象过程进行了实现。从理论角度对优化目标中的信息约束进行分析,使用流模型替换变分自编码器的先验分布,实现更好的静态信息提取。在2个典型任务上验证了方法的对环境静态信息的提取能力。再次,推导状态预测过程与生成模型之间的关系,利用POMDP过程中的内部约束,将状态预测过程转化为序列生成问题,并基于循环神经网络对状态预测过程进行了实现。根据置信状态变量的节点形式与轨迹优化方式的不同提出了RAR、RVAR、RVAE三种模型。在2个典型任务上证明了其对环境动态信息的提取与预测能力。最后,借鉴人类智能决策方式,提出了基于世界模型和演员-评论家框架的想象学习方法,利用学习到的世界模型来产生类人的、可解释的智能决策。并在全部5种典型仿真任务中对算法进行整体验证,实验证明算法的有效性,并且相比其他强化学习方法可极大地提升了样本利用率。探索了离线智能体训练方式,证明了框架中数据采集的反馈过程对于智能体的性能至关重要。
其他文献
利用响应曲面法研究了秸秆与厨余垃圾混合厌氧发酵产甲烷的二次回归模型和工艺条件。选取原料配比、原始C/N、TS浓度为参考因素,采用3因素3水平的试验设计手段进行预测,在原
固定价格合同是常见的施工承包合同形式,但是采用固定价格合同时承包方将承受较高的风险,特别是近年来建材价格异常变动加剧,使固定价格合同难以正常履行。《合同法》等相关
根据近几年工程承包业务发展趋势,并结合笔者在工程实施过程中积累的经验教训,现就机电工程实施过程中容易出现的问题,对图纸设计及细化进行总结,并有针对性地提出预防措施。
通过对胜利浅海CB11NC丛式井组的施工和轨迹控制难点进行分析,针对浅海丛式井组施工和轨迹控制的难点提出了相应的技术措施,特别是针对浅层大井眼定向,丛式井组的防碰,后期施
各类国有资产是各级国家机构实现治理目标、提供公共物品的物质基础。国有资产配置和运营效率高低主要取决于其管理体制机制的优化程度。文章以公共经济学视角,从三个侧面就
行文将讨论产品开发三原则中关于合意性的问题。重点围绕视觉界面设计如何进行目标导向的问题以此阐述艺术家和设计师的区别,视觉界面设计的原则和遵守这些原则的必要性。以
太赫兹源是太赫兹应用系统射频前端的核心单元组件之一。针对当前肖特基二极管的太赫兹二次倍频源链路总效率低、集成度不够、稳定性较差、单倍频程带宽限制和倍频器级间失配
我国5G发展进入快车道,新技术与内容产业深度融合,用户在社交、资讯方面的互动性、实时性需求越来越强烈。短视频作为一种文字、声音、图片之外的新的信息传播媒介,凭借其丰
随着经济的发展,人们对电力的需求量在不断地增加,使得电力行业也得到了快速发展。目前,随着电力改革的不断深入,对电网企业的财务管理要求也随之越来越高。面对新时期下电网
优秀的文化产品和优质服务是旅游吸引力的重要源泉。优质的旅游发展是弘扬、繁荣中华优秀传统文化的有力载体。日前举办的2018山西旅游发展大会提出加快培育文化旅游战略性支
报纸