论文部分内容阅读
强化学习是机器学习研究领域的一个重要分支。它通过与环境进行交互获得即时收益,使得期望回报最大化。强化学习根据其产生行动样本的策略与评估的策略是否相同可分为on-policy学习和off-policy学习。在处理强化学习问题时,off-policy方法更通用,能够更广泛的应用于许多实际问题中。近年来,关于off-policy学习方法,大部分学者的研究工作主要集中于off-policy的策略评估问题,它是off-policy策略学习的基础。在研究off-policy策略优化问题时,off-policy策略评估是策略改进的一个关键步骤。本文主要研究关于马尔可夫决策过程的off-policy策略优化问题,即在已知行为策略收集的固定样本条件下,学习一个新的具有良好表现性能的策略。针对该问题,本文提出了一个新的off-policy策略迭代算法,该算法遵循广义策略迭代(GPI)的模式,包括两个步骤:策略评估和策略改进。在策略评估步骤中,本文基于最近研究工作中Liu等人(2018a)[20]提出off-policy策略评估方法,通过校正目标策略和行为策略下状态分布的不匹配度来估计目标策略的价值函数,即采用两个策略下平稳状态分布比率来替代轨迹空间的累积重要性采样比。该方法避免了以往重要性采样方法中面临的随轨迹长度呈指数增长的高方差问题,可以很好地应用于轨迹长度很长的马尔可夫决策问题中。此外,为了验证该算法的良好经验性质,本文对其进行了相应的模拟实验,并将该算法与以往没有校正状态分布差异的off-policy学习算法进行实验模拟比较。结果分析表明,本文提出的新算法能够在已知行为策略收集的有限样本数据集下,学习一个具有良好表现性能的新策略,与以往没有校正状态分布差异的算法相比,具有更好,更稳定的表现性能。