求解部分可观测马氏决策过程的强化学习算法

来源 :控制与决策 | 被引量 : 0次 | 上传用户:liqwart2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对部分可观测马氏决策过程(POMDP)中,由于感知混淆现象的存在,利用Sarsa等算法得到的无记忆策略可能发生振荡的现象,研究了一种基于记忆的强化学习算法--CPnSarsa(λ)学习算法来解决该问题.它通过重新定义状态,Agent结合观测历史来识别混淆状态.将CPnSarsa(λ)算法应用到一些典型的POMDP,最后得到的是最优或近似最优策略.与以往算法相比,该算法的收敛速度有了很大提高.
其他文献
研究了模糊控制技术的使用.对于每种度量,定义了相应的模糊隶属度函数用于预测一个更稳定的链路,实现了一个模糊推理规则库以产生每种链路的模糊代价,并提出一种基于移动预测
拥塞控制对ATM网络有效、稳定运行具有重要的作用.在单瓶颈多通道的网络模型下,基于Smith预估原理,提出一种新颖的鲁棒拥塞控制器设计方案.这种基于速率的拥塞控制可以保证AB
目的分析冠状动脉造影Gensini评分与冠心病危险因素的关系。方法选取2015年3月至2016年3月收治的210例冠心病患者作为研究对象,采用定量冠状动脉造影分析法,按改良Gensini评
探讨了一种基于概念格的几何数据挖掘算法,根据不动点理论和伽罗瓦连接原理,在数据库中寻找大于一定支持度的闭项目集,分解闭项目集便可得到数据间的关联关系.实验结果表明,
目的:探讨聚乙二醇干扰素α-2a联合索菲布韦在慢性丙型肝炎患者中应用效果。方法:选取我院慢性丙型肝炎患者61例,按照随机数字表法分组,两组均给予利巴韦林治疗,对照组30例采
目的:对参麦注射液在常用药物配伍中的稳定性进行分析。方法:将参麦注射液与临床常用药物(果糖注射液、注射用奥美拉唑钠、盐酸多巴胺注射液、氨茶碱注射液、维生素C、三磷酸腺
在多回路网络化控制系统中,通讯资源的共享和网络传输的时延为系统分析和设计带来新的问题.运用非线性规划理论,分析和推导了多回路网络化控制系统中采样频率优化问题,并由推