论文部分内容阅读
概率生成模型,也叫作生成模型,是在机器学习和概率统计问题中的一类具有极高实际应用价值的模型。它的应用十分广泛,可以用来对不同种类的数据进行建模,比如图像,声音,文本数据,同时它能够通过多种方式融入强化学习,所以在数据预测,图片处理,文本生成等领域有广泛的作用。但是如何设计一种高效且有效的生成模型,也是非常具有挑战性的。生成模型的关键步骤就是对目标分布进行参数化估计。为了在一定程度上简化讨论,在本文中我们将主要关注通过极小化交叉熵(KL)的原理工作的生成模型。生成模型的种类非常多,但是主要能分为两类,一类是构造一个显式的密度分布。在这些显式的密度模型中,密度是可以计算处理的,所以模型的更新也是相对直接的。比如变分自编码器。另一类生成模型没有显式地表示数据所在空间上的概率分布,相反,该模型提供了某种方式来减少与这种概率分布的直接交互。通常是直接提取样本的能力,比如使用马尔科夫链来随机变换现有样本的方法,以便从同一分布中获得另一个样本。特别的,有一类特别的具有显式密度函数的生成模型,是基于定义两个不同空间之间的连续非线性变换来构造的,称为流模型。换句话说,这类模型从一个简单的分布出发,将其与一个变换相结合,以一种复杂的方式扭曲空间,进而得到复杂的分布。如果对该映射进行控制,那么对应的概率分布也是可以控制的。这类模型比如NICE模型与Real NVP方法,通过设计一个可逆的编码器,直接定义了明确的且可处理的概率密度分布。但是这类模型也有其缺点,比如网络结构复杂,导致计算量大,训练时间长。本文同样考虑这样一种特殊的生成模型,通过构造初始分布与目标分布之间的映射,来对目标概率分布进行估计。我们发现,求解这样一种映射与求解偏微分方程中的自适应网格法有很多相似之处。自适应网格方法是一种基于变分法的迭代网格构造方法,该方法能够改变偏微分方程解的变化较大区域附近的网格分布,在求解具有奇异解的偏微分方程过程中特别有效。而这样一种网格移动,是由Winslow能量泛函所控制的。如果我们将把样本映射到概率密度较高的区域,看成将网格点移动到解的梯度较大的区域的过程。我们就能通过Winslow泛函来建立这两种问题的联系,进而将这种能量泛函运用到生成模型的构建中来。本文的主要内容可以分为四个部分,其具体的工作能够概括为如下:(1)对一些相关的生成模型进行介绍,包括直接使用梯度方法极小化交叉熵的方法以及Stein变分梯度下降方法(SVGD)算法。给出其中重要定理的证明,并且提供了一些简单的算例来展示其效果。(2)我们希望映射的更新能够满足一定的约束条件,所以我们引入了Winslow泛函。这种能量泛函被用于求解PDE的迭代自适应网格方法中。我们通过介绍这种算法,说明了Winslow泛函的定义。并且通过简单的例子介绍其效果与原理,为我们后续提出基于Winslow泛函的生成模型提供一个良好的基础。(3)在对生成模型以及自适应网格法有了一定认识后,我们详细说明了这两种方法的内在联系与相同点,同时分析了将Winslow泛函运用到构建生成模型的可行性。有了以上的铺垫,我们提出了一种基于Winslow泛函的生成模型,将更新映射转化为更新控制函数,再通过控制函数来决定映射。我们简要介绍了该其原理并对相关的细节进行了证明。我们通过在一维与二维情况下不同的数值实验说明了其效果,并和之前提到的生成模型进行简单的比较。(4)在高维情况下,对偏微分方程进行数值求解是非常复杂的,为了能够将我们的方法运用到高维问题上,我们探讨了如何在神经网络框架下实现我们的算法。所以我们简要介绍了求解PDE的神经网络算法,Ritz算法以及在机器学习中比较经典的生成模型,生成对抗模型(GAN)。我们详细讨论了神经网络结构的设计中的难点,包括损失函数的设计,边界条件与迭代流程的处理。最终通过一些数值算例对其有效性进行了验证,并做了简要分析。本文的数值实验结果,说明了这样一种基于Winslow泛函的生成模型是有效的。并且不论是使用数值求解还是使用神经网络求解问题,该方法都取得了不错的效果,能够在较低次数的迭代下达到较低的交叉熵。总的来说,本文的价值主要体现在如下几个方面:(1)我们的工作为生成模型的算法构建提供了一种新的思路。我们成功的将自适应网格算法中所使用的Winslow泛函应用到生成模型的算法构建中,将求解目标映射的问题转化为求解偏微分方程问题。我们在一些数值实验中成功验证了该算法的有效性。此外,我们对所介绍的算法都进行了一些数值实验,并且就结果给出了一些初步的分析与探究。(2)我们成功在神经网络框架下实现了我们的模型。我们介绍了如何使用神经网络求解偏微分方程,然后详细讨论了对于基于Winslow泛函的生成模型在设计网络结构设计中的难点与处理方法。最终在低维情况下验证了我们的网络结构的训练效果。(3)我们的工作提出了很多值得研究问题。在生成模型的研究中,本文的工作数值算例都是在低维度下进行的,并且集中于目标概率为显式概率分布。本文并未对离散数据集以及高维度问题进行过多的讨论,我们相信该模型也能够在这些问题上适用。我们的网络框架设计还有一些缺点,比如并未对计算雅可比矩阵的过程进行优化,而随着维度上升,雅克比矩阵的计算会变得非常复杂。这些问题非常值得进一步研究。