论文部分内容阅读
近年来,深度强化学习通过结合强化学习和深度学习技术,已经在许多序列决策问题中成功应用,如围棋,电子游戏,机器人控制,自动对话系统等。强化学习通过将实际中的序列决策问题抽象建模成马尔可夫决策过程,设计算法解决策略评估和策略控制两大类问题。深度学习利用深度神经网络的强大表达能力,可以自动化地抽取实际问题中数据的特征。二者结合而成的深度强化学习因此具有了在复杂实际问题中自我学习,自我提升的能力。在本文中,我们将从三个角度,分别研究强化学习中的策略评估问题,策略控制问题和深度学习中深度神经网络相关的算法性质。其中策略评估问题是整个强化学习问题的基础,主要研究如何高效评估一个给定的策略。有了对于策略好坏的评估,策略控制问题的目标是设计算法找到最优策略,因此也是强化学习解决问题的核心。而深度强化学习近期的成功,一个非常重要的因素就是深度神经网络的发展,高效的神经网络训练算法在其中起到了不可或缺的作用。本文的目的是通过运用数学工具,分析、理解并改进深度强化学习中的随机算法,这将有助于我们有针对性地改进已有算法以及提出更高效的新算法,对于深度强化学习领域具有重要意义。本文的第一个工作主要关注策略评估问题。策略评估问题中基于梯度算法的理论分析在此之前一直局限于一系列强假设下,如数据独立同分布等,导致理论分析与实际并不吻合。针对实际问题中数据非独立同分布的情况,本文首次解决了策略评估问题中常用的基于梯度的时间差分算法(GTD)是否收敛以及收敛速率如何这一公开问题。为了解决这个问题,考虑到强化学习问题的数据天然服从马氏性而非独立同分布,本文引入混合时间等数学工具来刻画数据非独立同分布的属性。之后本文通过为更一般化的鞍点问题设计全新的误差分解公式,首次给出了一般鞍点问题中一阶梯度下降算法在数据非独立同分布时的收敛速率。最后更进一步给出了GTD算法的收敛速率的精确刻画,并从多个角度讨论了影响GTD算法收敛性的因素,从而给现有算法提供了更严格的收敛性保证。本文的第二个工作主要关注策略控制问题中的迁移学习。在策略控制问题中,一个受到广泛关注的领域是如何进行迁移学习,像人类一样利用已经学习到的知识来加速新问题的求解。过去相关的迁移强化学习工作大多没有理论保证算法的有效性,经验性设计的迁移操作会带来潜在的负面影响,并且没有利用强化学习自己的算法特点。本文通过理论分析策略控制问题中一类非常重要的算法,Q学习及其变种形式的收敛性情况,发现了影响收敛速率的关键性因素与Q学习中的目标Q函数密切相关。因此本文提出了一个基于目标Q函数的迁移学习算法,名为迁移目标Q学习。为了避免不合理的迁移操作带来的潜在负面影响,本文根据理论结果,合理设计误差条件,并且证明了在验证误差条件的情况下,本文提出的迁移目标Q学习可以保证迁移操作的有效性。最后,我们在多种序列决策实验环境中验证了算法的实用性和有效性。本文的第三个工作主要关注深度学习中深度神经网络的学习。高度的非线性性给深度神经网络带来强大的数据拟合能力的同时,也使得深度神经网络的学习变得困难。前人的工作中已经证明,部分前馈网络结构的参数空间维度相对冗余,这会给优化带来额外的困难。在深度强化学习中,如循环神经网络、注意力网络等非前馈网络结构也有着大规模的应用。为了将前人工作中局限在前馈网络结构之中的技术和结果实用化,本文更全面地研究了不同类型的常用非前馈神经网络。针对不同的神经网络结构,我们分三步进行我们的工作。首先分析神经网络的路径表示,将神经网络用一种全新的具有正尺度变换不变性的参数表示出来,我们称之为路径。其次,证明所有路径可以由极少一部分独立的路径表达并且设计算法将这些独立的路径构造出来。最后为了将理论结果实用化,我们分别在两种网络结构中设计新参数空间上的优化算法,兼顾了优化算法的有效性和效率,并在多种数据集上验证了算法实际性能。