求解部分可观测马氏决策过程的强化学习算法

来源 :控制与决策 | 被引量 : 0次 | 上传用户：liqwart2

【摘要】

：

针对部分可观测马氏决策过程(POMDP)中,由于感知混淆现象的存在,利用Sarsa等算法得到的无记忆策略可能发生振荡的现象,研究了一种基于记忆的强化学习算法--CPnSarsa(λ)学习

【作者】

：

王学宁贺汉根徐昕

【机构】

：

国防科技大学,国防科技大学

【出处】

：

控制与决策

【发表日期】

：

2004年11期

【关键词】

：

强化学习部分可观测Markov决策过程 Sarsa学习无记忆策略 Convergence of numerical methods Decision the

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对部分可观测马氏决策过程(POMDP)中,由于感知混淆现象的存在,利用Sarsa等算法得到的无记忆策略可能发生振荡的现象,研究了一种基于记忆的强化学习算法--CPnSarsa(λ)学习算法来解决该问题.它通过重新定义状态,Agent结合观测历史来识别混淆状态.将CPnSarsa(λ)算法应用到一些典型的POMDP,最后得到的是最优或近似最优策略.与以往算法相比,该算法的收敛速度有了很大提高.

其他文献

一种基于模糊推理的自组网成簇控制策略

研究了模糊控制技术的使用.对于每种度量,定义了相应的模糊隶属度函数用于预测一个更稳定的链路,实现了一个模糊推理规则库以产生每种链路的模糊代价,并提出一种基于移动预测

期刊

移动自组织网络极大独立集成簇δ-度模糊推理模型Computer simulationFuzzy setsNetwork protocolsPre

多通道ATM网络鲁棒拥塞控制

拥塞控制对ATM网络有效、稳定运行具有重要的作用.在单瓶颈多通道的网络模型下,基于Smith预估原理,提出一种新颖的鲁棒拥塞控制器设计方案.这种基于速率的拥塞控制可以保证AB

期刊

ATM网络拥塞控制多通道鲁棒性Asynchronous transfer modeComputer simulationControl theory

冠状动脉造影Gensini评分与冠心病危险因素相关性分析

目的分析冠状动脉造影Gensini评分与冠心病危险因素的关系。方法选取2015年3月至2016年3月收治的210例冠心病患者作为研究对象,采用定量冠状动脉造影分析法,按改良Gensini评

期刊

冠心病冠状动脉病变严重程度危险因素

动态决策系统中的几何挖掘算法——概念格

探讨了一种基于概念格的几何数据挖掘算法,根据不动点理论和伽罗瓦连接原理,在数据库中寻找大于一定支持度的闭项目集,分解闭项目集便可得到数据间的关联关系.实验结果表明,

期刊

动态决策数据仓库数据挖掘概念格Associative processingData miningData warehousesElectric p

聚乙二醇干扰素α-2a联合索菲布韦治疗慢性丙型肝炎疗效观察

目的:探讨聚乙二醇干扰素α-2a联合索菲布韦在慢性丙型肝炎患者中应用效果。方法:选取我院慢性丙型肝炎患者61例,按照随机数字表法分组,两组均给予利巴韦林治疗,对照组30例采

期刊

慢性丙型肝炎聚乙二醇干扰素Α-2A索菲布韦病毒RNA转阴率肝纤维化程度

参麦注射液在常用药物配伍中的稳定性分析

目的：对参麦注射液在常用药物配伍中的稳定性进行分析。方法：将参麦注射液与临床常用药物（果糖注射液、注射用奥美拉唑钠、盐酸多巴胺注射液、氨茶碱注射液、维生素C、三磷酸腺

期刊

参麦注射液常用药物配伍稳定性Shenmai injectioncommonly used drugscompatibilitystability

多回路网络化控制系统中优化采样频率的确定

在多回路网络化控制系统中,通讯资源的共享和网络传输的时延为系统分析和设计带来新的问题.运用非线性规划理论,分析和推导了多回路网络化控制系统中采样频率优化问题,并由推

期刊

网络化控制系统优化采样频率非线性规划Control system analysisNonlinear networksNonlinear progra

求解部分可观测马氏决策过程的强化学习算法

其他学术论文