论文部分内容阅读
概率图模型是一种结合图论和概率论相关知识的理论框架。该框架可利用图结构表示模型中随机变量的联合概率分布,推断未知随机变量的条件或边缘概率分布,以及学习模型结构和参数。由于表示、推理和学习是构建任何智能系统的基本任务,因此,作为集表示、推理和学习于一体的重要理论框架,概率图模型自问世以来就受到了人工智能学者的广泛关注。近年来,概率图模型已经成为不确定性推理的研究热点,在模式识别、数据挖掘、计算机视觉、机器学习、语音识别、推荐系统、自然语言处理、复杂网络等领域展现出强大优势和优秀性能。尽管概率图模型应用十分广泛,但关于它的研究和应用仍然面临不少挑战。为此,本文以自然语言处理和复杂网络为领域背景,以监督隐狄利克雷分配模型(supervised Latent Dirichlet Allocation,sLDA)和随机块模型(Stochastic Block Model,SBM)两种概率图模型作为研究对象,针对参数学习、模型耦合和模型选择三个问题开展深入研究,探索提升两种概率图模型学习效率和可伸缩性(Scalability)的研究思路和具体方法。本文主要研究内容和贡献如下:(1)提出一种面向sLDA的并行在线学习方法:以sLDA为研究对象,重点关注参数学习问题,提出一种基于随机变分推理(Stochastic Variational Inference,SVI)的并行在线学习方法。作为一种随机优化技术,随机变分推理具有三个显著优势:1)其使用的自然梯度比欧几里德梯度能更精准地评估两个分布的近似程度;2)基于观测数据随机子集计算得到的随机梯度是整个观测数据集完全梯度的无偏噪声估计;3)自然梯度可规避Fisher信息矩阵(Fisher Information Matrix)极为耗时的计算过程。为此,本文首先将SVI引入到sLDA推理和学习过程中,在降低时间复杂度、提升参数学习效率和精度同时,使sLDA具备支持在线学习的能力,进而拓展sLDA的应用范围以有效应对实时性强的在线应用需求;在此基础上,进一步提出一种参数并行计算的学习机制,并采用Map Reduce框架实现基于单台多核计算机的并行学习方法PO-sLDA,进一步扩展其处理较大规模数据的可伸缩性。基于两个真实数据集的实验结果表明:PO-sLDA具有很好的准确性和快速收敛性,其可伸缩性和在线学习能力的有效性也得到了充分验证。(2)提出一种面向度校正SBM的高效学习方法:以SBM为研究对象,重点关注模型耦合问题和模型选择问题。首先基于“重参化”思想开展标准SBM的模型扩展研究,通过引入一个服从二项分布的K×n维参数(?)重新参数化标准SBM中的(?)实现参数解耦,并引入另一个n维参数β来度量各节点在所属隐含块中的重要程度,提出一种可刻画真实网络节点度异质性分布特征的全新度校正随机块模型RSBM;针对RSBM,本文将最小信息长度MML模型选择准则与组件粒度(Component-wise)EM算法有效结合,提出一种在块空间而非模型空间同步执行模型选择和参数估计的“并行”学习机制,该学习机制能够显著提升SBM学习的效率,可将SBM学习的时间复杂度从O(n5)降至O(n3),有效提升处理较大规模探索式网络(Exploratory network)结构发现的可伸缩性,使现有SBM学习处理无符号网络规模由千级节点突破至万级节点以上。实验验证结果表明:RSBM更适合建模现实世界中绝大多数无符号网络,在保留标准SBM诸多优势同时能够具备更强的泛化能力;其良好的准确性、普适性和可伸缩性使其在处理具有节点度和块大小异质性分布的各类网络,以及不具备任何先验知识的较大规模无符号网络方面都具有显著优势。(3)提出一种面向符号SBM的高效学习方法:为进一步验证“重参化”思想和“并行”学习机制的普适性,以SBM为研究对象,开展符号网络应用背景下的模型耦合问题和模型选择问题研究。符号网络的连接有正、负之分,能够刻画现实世界中具有对立性质的关系,因此,发现和分析符号网络的结构更具研究价值,但也更具挑战:1)建模符号网络中连接的生成模式比无符号网络更复杂;2)模型参数个数增多使模型选择和参数估计比无符号网络更低效;3)发现存在于符号网络的多种网络结构比无符号网络更困难;4)符号网络中噪声(块内负边和块间正边)的存在使学习方法鲁棒性更差。为此,本文通过引入一个K×n×3维参数(?)重参化标准SBM中的(?),元素(θkj1,θkj2,θkj3)服从多项分布,分别表示块k到节点j生成正边、不生成边和生成负边的概率,提出可从更细粒度层次刻画和捕获符号网络结构信息的全新符号随机块模型SSBM和基于“并行”学习机制的高效学习方法。实验验证结果表明:SSBM能准确建模和发现符号网络中社区、二分以及两者共现等多种网络结构,具有出色准确性、良好泛化能力和处理较大规模网络的可伸缩性,并且对网络噪声表现出很好的鲁棒性。