基于部分可观察马尔科夫决策过程的序列规划问题的研究

来源 :南京大学 | 被引量 : 0次 | 上传用户：xujiaaiwu

【摘要】

：

智能规划(AI planning)是传统人工智能最重要的研究领域之一。随着问题规模不断增大,复杂程度不断提高,如何在大规模不确定环境下设计出高效智能的决策算法是当前智能规划非

【作者】

：

刘峰

【出处】

：

南京大学

【发表日期】

：

2015年期

【关键词】

：

部分可观测马尔科夫决策过程基于点的值迭代策略迭代启发式在线算法蒙特卡罗法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

智能规划(AI planning)是传统人工智能最重要的研究领域之一。随着问题规模不断增大,复杂程度不断提高,如何在大规模不确定环境下设计出高效智能的决策算法是当前智能规划非常重要的研究课题。由于POMDP能够很好地对环境、动作及观察的不确定性进行建模,因而在不确定性环境下基于POMDP模型来进行规划是目前自动规划研究的重要内容。而在无限视野下精确求解POMDP问题是NP难问题,在过去的十多年里,基于点的POMDP问题启发式求解成为了大规模POMDP问题求解的研究热点。但是在离线求解POMDP问题的研究中,大多数基于点的近似求解方法都是基于单一的启发式标准,难以适用于不同的问题场景；在在线求解POMDP问题的研究中,且近几年的启发式方法都是只以最优上界作为探索标准,降低了收敛效率。本文围绕如何设计高效的启发式POMDP求解算法来展开研究。本文的研究内容主要有三个方面,首先,研究了目前主流的基于点的POMDP近似求解启发式标准,杂合密度分布的标准和值函数的标准设计HHVI算法来提高探索信念点集的质量；其次,研究了基于聚类构造可达信念点集最小覆盖的方法,并设计了基于点的策略迭代算法来求解POMDP司题；最后改进了最优可达信念空间的探索标准,设计了基于概率的最优可达空间近似方法,从而改进了POMDP在线求解的效率。具体来说,论文的主要内容和创新点如下：1. 目前基于点的POMDP离线近似求解启发式标准主要是基于密度分布的标准、基于值函数的标准和基于MDP的标准。但是基于MDP的近似解法没有考虑部分可观察性,会退化为随机策略；单一基于密度标准的算法无法控制探索点集的规模难以保证收敛质量；单一基于值函数的算法复杂度较高难以保证收敛效率。本文提出了杂合的启发式值迭代算法来离线求解POMDP问题,该算法基于值函数启发式标准评价已探索点集内信念点的被扩价值,结合信念点分布和值函数选择合理的后继点,通过杂合值函数和密度的标准避免了单一标准的局限性,增强了对不同POMDP问题的适应性。2.最近的研究说明δ-覆盖数是刻画基于点的POMDP问题求解的有效度量,但精确计算可达信念空间的δ-覆盖数是一个NP-难的问题。本文分析了可达信念空间的聚类特性,基于可达信念空间的分布特征来高效地构造其δ-覆盖,由此获得分散分布于可达信念空间的探索信念点集,通过策略迭代来离线求解POMDP问题。3. 当前的启发式在线算法大多基于最高上界的行动分支搜索探索信念点,从理论上保证算法最终能找到信念点上的最优行动,但上界的收敛较慢,且下界能够保证策略的质量,在线规划算法在执行时以最优下界对应的行动作为决策行动。本文提出了选择最优动作的新标准,以所有动作的函数值在其上界和下界之间的概率分布为基础,计算每个动作的值函数取值最大的概率,再选择概率值最大的动作。算法更准确地探索到最优可达信念空间附近的区域,从而提高在线求解的迭代效率。

其他文献

CDM机制下森林碳汇潜力估算与市场开发政策创新

研究了中国的森林资源状况和碳储量的时空分布状况。分析了CDM机制下影响中国森林碳汇潜力的主要因素。基于森林碳汇潜力估算模型,以江苏龙潭林场为例进行了碳汇潜力计算。总

期刊

清洁发展机制碳汇市场开发政策创新

高中生数学思维障碍的成因及对策

高中是学生学习数学的关键时期,如果在这个关键时期他们的数学思维得不到很好发展,且有了一定的障碍,将会严重影响他们对数学知识的接受和学习。因此,教师不能本本框框地只给

期刊

数学教学思维障碍原因对策

上党八音会乐曲《大十番》——一个民族器乐乐曲流传变异的典型实例

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

期刊

上党八音会《大十番》民族器乐典型实例

关于违规股份增持行为法律规制的探讨

期刊

违规增持并购证券监管限制表决

客車空調装置換热器以鋁代銅的初步研究

<正> 近年来,我国鉄路客車上开始采用空气調节装置。空調装置換热器(两个冷凝器和一个蒸发器)的換热材料用紫銅管和紫銅片,每节車廂安装一套空調装置,每套装置用銅750公斤。

期刊

换热器换热管换热元件初步研究

少数民族文字符号化的设计应用研究

由于历史等方面的原因,少数民族文字的使用人数相对较少。传承和保护少数民族语言文字,既是弘扬民族文化的重要途径,又是维护民族语言多样性的重要表现,是构建多民族和谐共处

期刊

少数民族文字符号设计

基于自动化模拟开关的终端功能测试应用

为确保自动化开关正确实现其功能,需及时开展开关及二次终端的功能测试。通过采取自动化模拟开关进行终端不停电功能测试,能够有效检验继保动作的准确性,以及时发现并消除设

期刊

模拟开关遥控功能测试automatic analog switchremote controlfunction test

铁路牵引项目效益边界分析及决策管理应用

期刊

铁路牵引广东省成本费用电气化铁路电压等级项目投资规模北部山区回收期电网建设项目基本电价管理应用

证券市场信息传导研究

证券市场是典型的信息不对称市场，市场上信息传导效率的高低直接影响了市场的有效性。要想进一步完善证券市场的运行机制，提高证券市场的效率，使证券市场在促进国民经济发展方面

学位

信息不对称信息传导有效市场有效市场理论信息披露信息传递信息反映

基于部分可观察马尔科夫决策过程的序列规划问题的研究

其他学术论文