基于状态分布比率的off-policy策略迭代算法

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:liliqqqq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是机器学习研究领域的一个重要分支。它通过与环境进行交互获得即时收益,使得期望回报最大化。强化学习根据其产生行动样本的策略与评估的策略是否相同可分为on-policy学习和off-policy学习。在处理强化学习问题时,off-policy方法更通用,能够更广泛的应用于许多实际问题中。近年来,关于off-policy学习方法,大部分学者的研究工作主要集中于off-policy的策略评估问题,它是off-policy策略学习的基础。在研究off-policy策略优化问题时,off-policy策略评估是策略改进的一个关键步骤。本文主要研究关于马尔可夫决策过程的off-policy策略优化问题,即在已知行为策略收集的固定样本条件下,学习一个新的具有良好表现性能的策略。针对该问题,本文提出了一个新的off-policy策略迭代算法,该算法遵循广义策略迭代(GPI)的模式,包括两个步骤:策略评估和策略改进。在策略评估步骤中,本文基于最近研究工作中Liu等人(2018a)[20]提出off-policy策略评估方法,通过校正目标策略和行为策略下状态分布的不匹配度来估计目标策略的价值函数,即采用两个策略下平稳状态分布比率来替代轨迹空间的累积重要性采样比。该方法避免了以往重要性采样方法中面临的随轨迹长度呈指数增长的高方差问题,可以很好地应用于轨迹长度很长的马尔可夫决策问题中。此外,为了验证该算法的良好经验性质,本文对其进行了相应的模拟实验,并将该算法与以往没有校正状态分布差异的off-policy学习算法进行实验模拟比较。结果分析表明,本文提出的新算法能够在已知行为策略收集的有限样本数据集下,学习一个具有良好表现性能的新策略,与以往没有校正状态分布差异的算法相比,具有更好,更稳定的表现性能。
其他文献
学位
学位
学位
学位
学位
学位
学位
随着当今社会的经济、文化物质生活上的不断进步,婚姻观念、两性关系也因物质基础的改变而随之变化。正因当今的原子化社会以及不婚主义的盛行,在年轻一代中也常选择未经婚姻登记而同居,共同购置财产乃至生育子嗣。对中年人而言,在婚姻关系破裂后,一部分人面对高额的房价或迫于生计,哺育子女及照顾老年人、搭伴养老同居等问题,这些日益频繁的使得因同居期间购置的财产产生的纠纷问题愈发重要。我国针对非婚同居的财产问题于上
科学技术是第一生产力,科技的发展给人们的生活带来了巨大的变化。如今,科技新闻已成为人们了解科学技术的重要渠道。本翻译实践报告以《麻省理工科技评论》杂志同名网站中的科技类新闻报道为翻译文本,旨在为所有关心科技成就,关注科学创新的人群,提供一个全面了解新兴科技动态的前沿阵地。本报告以《麻省理工科技评论》杂志为源文本,从生态翻译学“三维转换”视角研究科技新闻翻译,并尝试总结出相应的翻译技巧,以解决翻译实
小微企业是我国经济来源的主要命脉之一,对我国的经济贡献不容小觑,为我国整体经济发展提供了重要的支撑。而小微企业信贷的系统性风险较为突出,其信贷业务风险给银行带来较大压力,小微企业“融资难”的问题在本质上仍旧没有找到可以彻底解决的办法。本文以T城商行为例,对其小微信贷风控现状、问题及原因进行了剖析,并结合自身经验和所学知识给出了完善该行风控体系的建议。本文首先介绍小微企业相关的背景和理论知识,接着就