基于逻辑马尔可夫决策过程的关系强化学习研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:haofei88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前普遍认为智能主体应当具有学习能力,能够把握和适应动态环境的变化。在没有任何老师指导的情况下,强化学习让主体尝试行动,在与环境交互过程中试错,根据收集到的环境反馈,对尝试的行动进行评价,最终把握环境并学会行动决策以适应环境。以马尔可夫决策过程为基础,近年来提出了很多强化学习方法,获得了很大的进展,对以特性向量表示的状态也有了充分的研究。然而特性向量这种命题表示法,很难表示环境中的关系信息,特别是有大量物体,物体之间又有很多关系的领域。为了把强化学习方法应用到这些复杂的环境,最近提出了以关系表示为基础的关系强化学习,研究在用关系逻辑表示环境的状态和主体的行动时,如何进行学习,以及如何对环境状态进行抽象以把握环境。用常原子表示的环境基本状态空间巨大,需要使用适当的有变量的抽象状态表示方法来把握环境。最近提出了一些关系强化学习的方法和模型,但对关系强化学习问题本身还缺乏透彻的理解,关系强化学习的理论也很不充分。本文在简单的仅用原子表示的逻辑马尔可夫决策过程LOMDP的基础上,提出了带否定词的逻辑马尔可夫决策过程nLMDP,并基于该模型,提出了替换学习方法及状态演化方法。在逻辑马尔可夫决策过程nLMDP中,首次引入了逻辑否定,用来准确的描述环境和任务。然后又提出了抽象状态空间的生成方法和扩展方法,从一个准确描述的的目标抽象状态开始,使用一次生成方法和多次扩展方法,可以让设计者很容易的得到一个规模适度的互补抽象状态空间,即每个基本状态只有一个抽象状态来表示,所有的抽象状态又能表示所有的基本状态。本文也提出了原型行动,以表示环境内主体的基本行动方式,是抽象行动上的更高抽象。原型行动中同样引入了逻辑否定表示行动的执行条件,根据原型行动和互补的抽象状态空间,可以很容易得到抽象状态上的可执行抽象行动。逻辑马尔可夫决策过程nLMDP基于互补的抽象状态空间和原型行动集构建。基于nLMDP,本文提出了替换学习(θ(λ))方法,实现了主体在线自动获得抽象行动,并完成对原型行动到抽象状态上有效替换的评价估计。试验显示替换学习是一个高效的学习方法。对于复杂的领域,设计者很难给出完善的互补抽象状态空间,也很难对给出的互补抽象状态空间进行评价。本文提出了状态演化的方法,基于逻辑马尔可夫决策过程nLMDP和替换学习,仅需要设计者提供任务的目标抽象状态和主体的原型行动集,主体在学习中自己组织抽象状态空间,并对他们进行评价,完成策略的学习。试验显示状态演化过程中,主体能够抓住任务的本质,获得的自组织互补抽象状态空间也是合理的。本文的主要贡献与创新:1.引入逻辑否定描述抽象状态,准确表述环境和任务;提出抽象状态空间的生成和扩展方法,为关系强化学习提供了一个构建互补抽象状态空间的简单方法。2.提出引入逻辑否定的原型行动,并形式定义了可执行抽象行动空间,为关系强化学习中主体自动获得抽象行动提供了基础。3.基于互补抽象状态空间和原型行动集,提出逻辑马尔可夫决策过程nLMDP,成为关系强化学习的一个理论模型。4.提出替换学习,实现抽象行动的在线获得,学习从原型行动到抽象状态有效替换的评价函数。5.提出状态演化的理论和方法,主体在学习最优策略过程中,也学习对环境状态的组织,最终得到互补的抽象状态空间。这也为关系强化学习提供了一个主体自组织环境状态的框架。
其他文献
旅游是一种消遣和消费的过程,花钱享受异地的风光、风情、美食和服务。有人说旅游就是从你活腻歪的地方到别人活腻歪的地方去。讲究什么呢?讲究走得顺利,住得舒适,玩得开心,食得美
江神子·金陵怀古(一)秦淮灯影乌衣巷,金风爽,玉露凉。当年王谢,烽火拒敌羌。为复社稷驱河洛,拥神器,襟怀壮。
语言理解是人类智能的一项重要特性,隐喻作为自然语言中的一种普遍现象,体现了人类重要的思维方式。隐喻是人类概念系统的一部分,我们的许多思考方式以及所体验的事物对认知
世界范围内的海洋石油钻井平台发展已有上百年历史,而深海石油钻井平台研发热潮兴起于20世纪80年代末,至今虽只有20多年。但技术创新层出不穷。
<正> 一、准确。即真实、可靠,符合客观事实,不夸大,不缩小.不可添校加叶.更不可﹂空捏造︶尤其是数据要绝对准确.引文要相对完整.符八口原文 这样,又率才有说服力。 二、典型。
期刊
在工业过程中经常会出现零件故障,子系统之间关联改变,以及突发性环境扰动等情况,这些情况会引起系统结构和参数发生跳变,由此产生的系统称为Markovian跳跃系统。该类系统因