面向两种概率图模型的高效学习方法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:wo7ni1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
概率图模型是一种结合图论和概率论相关知识的理论框架。该框架可利用图结构表示模型中随机变量的联合概率分布,推断未知随机变量的条件或边缘概率分布,以及学习模型结构和参数。由于表示、推理和学习是构建任何智能系统的基本任务,因此,作为集表示、推理和学习于一体的重要理论框架,概率图模型自问世以来就受到了人工智能学者的广泛关注。近年来,概率图模型已经成为不确定性推理的研究热点,在模式识别、数据挖掘、计算机视觉、机器学习、语音识别、推荐系统、自然语言处理、复杂网络等领域展现出强大优势和优秀性能。尽管概率图模型应用十分广泛,但关于它的研究和应用仍然面临不少挑战。为此,本文以自然语言处理和复杂网络为领域背景,以监督隐狄利克雷分配模型(supervised Latent Dirichlet Allocation,sLDA)和随机块模型(Stochastic Block Model,SBM)两种概率图模型作为研究对象,针对参数学习、模型耦合和模型选择三个问题开展深入研究,探索提升两种概率图模型学习效率和可伸缩性(Scalability)的研究思路和具体方法。本文主要研究内容和贡献如下:(1)提出一种面向sLDA的并行在线学习方法:以sLDA为研究对象,重点关注参数学习问题,提出一种基于随机变分推理(Stochastic Variational Inference,SVI)的并行在线学习方法。作为一种随机优化技术,随机变分推理具有三个显著优势:1)其使用的自然梯度比欧几里德梯度能更精准地评估两个分布的近似程度;2)基于观测数据随机子集计算得到的随机梯度是整个观测数据集完全梯度的无偏噪声估计;3)自然梯度可规避Fisher信息矩阵(Fisher Information Matrix)极为耗时的计算过程。为此,本文首先将SVI引入到sLDA推理和学习过程中,在降低时间复杂度、提升参数学习效率和精度同时,使sLDA具备支持在线学习的能力,进而拓展sLDA的应用范围以有效应对实时性强的在线应用需求;在此基础上,进一步提出一种参数并行计算的学习机制,并采用Map Reduce框架实现基于单台多核计算机的并行学习方法PO-sLDA,进一步扩展其处理较大规模数据的可伸缩性。基于两个真实数据集的实验结果表明:PO-sLDA具有很好的准确性和快速收敛性,其可伸缩性和在线学习能力的有效性也得到了充分验证。(2)提出一种面向度校正SBM的高效学习方法:以SBM为研究对象,重点关注模型耦合问题和模型选择问题。首先基于“重参化”思想开展标准SBM的模型扩展研究,通过引入一个服从二项分布的K×n维参数(?)重新参数化标准SBM中的(?)实现参数解耦,并引入另一个n维参数β来度量各节点在所属隐含块中的重要程度,提出一种可刻画真实网络节点度异质性分布特征的全新度校正随机块模型RSBM;针对RSBM,本文将最小信息长度MML模型选择准则与组件粒度(Component-wise)EM算法有效结合,提出一种在块空间而非模型空间同步执行模型选择和参数估计的“并行”学习机制,该学习机制能够显著提升SBM学习的效率,可将SBM学习的时间复杂度从O(n5)降至O(n3),有效提升处理较大规模探索式网络(Exploratory network)结构发现的可伸缩性,使现有SBM学习处理无符号网络规模由千级节点突破至万级节点以上。实验验证结果表明:RSBM更适合建模现实世界中绝大多数无符号网络,在保留标准SBM诸多优势同时能够具备更强的泛化能力;其良好的准确性、普适性和可伸缩性使其在处理具有节点度和块大小异质性分布的各类网络,以及不具备任何先验知识的较大规模无符号网络方面都具有显著优势。(3)提出一种面向符号SBM的高效学习方法:为进一步验证“重参化”思想和“并行”学习机制的普适性,以SBM为研究对象,开展符号网络应用背景下的模型耦合问题和模型选择问题研究。符号网络的连接有正、负之分,能够刻画现实世界中具有对立性质的关系,因此,发现和分析符号网络的结构更具研究价值,但也更具挑战:1)建模符号网络中连接的生成模式比无符号网络更复杂;2)模型参数个数增多使模型选择和参数估计比无符号网络更低效;3)发现存在于符号网络的多种网络结构比无符号网络更困难;4)符号网络中噪声(块内负边和块间正边)的存在使学习方法鲁棒性更差。为此,本文通过引入一个K×n×3维参数(?)重参化标准SBM中的(?),元素(θkj1,θkj2,θkj3)服从多项分布,分别表示块k到节点j生成正边、不生成边和生成负边的概率,提出可从更细粒度层次刻画和捕获符号网络结构信息的全新符号随机块模型SSBM和基于“并行”学习机制的高效学习方法。实验验证结果表明:SSBM能准确建模和发现符号网络中社区、二分以及两者共现等多种网络结构,具有出色准确性、良好泛化能力和处理较大规模网络的可伸缩性,并且对网络噪声表现出很好的鲁棒性。
其他文献
学位
金克己是韩国高丽中期文人,是高丽中期汉诗创作的杰出代表。关于金克己的生卒年无明确记载,其生平事迹亦不见正史。金克己留世的大部分诗文作品被收录在《东文选》《新增东国舆地胜览》《三韩诗龟鉴》《补闲集》等韩国历代诗文选集中。据俞升旦的《金居士集序》记载可知金克己文集有一百三十五卷之多,但这个文集已经失传。在《三韩诗龟鉴》中所收录的罗丽时期六十四位代表文人的诗歌作品中,金克己的诗歌数量占据首位,金克己也因
学位
随着互联网公司的日益增多以及市场的要求,公司间的竞标除了资质等一些硬性条件外,低廉的成本一直以来都是关键因素。为了压缩人力成本,越来越多的公司不可避免地要面临同时开展多个项目。除此外部环境之外,L公司还因为一些内部原因要开展多条业务线,拓展业务。在实际的运营过程中L公司基本上是多个项目并存同时推进。由于L公司没有成型的流程化管理,管理者的水平又良莠不齐,加上多项目并行的环境,项目在实施的过程中逐渐
近年来,学界对汉语主观量的关注度越来越高,尤其是关于表达主观量的构式研究成果十分丰富,但其中对主观限量构式的研究并不充分,且没有准确的界定。在梳理语料的过程中,发现否定形式是实现主观限量的主要标记,有基于此,我们以现代汉语中由否定形式标记的主观限量构式为研究对象,系统地考察其语义表达、话语功能等问题。全文分为7章,我们按照从总体介绍到个案研究的顺序组织文章内容。第1章是绪论。首先介绍了选题缘起,并
学位
学位
国家祭祀作为王朝礼制建设的重要内容,具有重要的政治和文化功能。北方游牧民族传统祭祀习俗与中原农耕民族儒家汉礼是辽朝国家祭祀构成的两大来源。契丹建国前将天地万物作为崇祀对象,充满自然崇拜的原始宗教信仰。建国以后,随着辽朝“变家为国”的政权建设,阿保机在汉臣的帮助下,以“参酌国俗,与汉仪杂就之”为基本原则,初步拟定了本朝的国家祭祀礼仪。太宗时期,随着对幽云汉地的占据,中原王朝国家祭礼开始大规模出现在辽
随着深度学习理论的不断发展和完善,基于深度学习的模型逐渐成了近些年自然语言处理技术的主流研究方法。而表征学习是基于深度学习的自然语言处理的基础,其质量直接关系到下游任务的性能。由于朝鲜语语料库缺乏,加之朝鲜语的粘着性特点,加大了朝鲜语自然语言处理的研究的难度。本文从朝鲜语表征学习和模型结构两个角度尝试解决朝鲜语的词向量、自动分写、形态素分析及词性标注、命名实体识别、情感分析等朝鲜语自然语言处理中的
伊氏锥虫(Trypanosoma evansi,T.evansi)是一种寄生于血液中的原虫,可感染多种动物引起伊氏锥虫病,又称苏拉病。伊氏锥虫感染不同动物后表现出不同的临床症状,引起马属动物和犬的急性感染,主要表现为高热、体重减轻、贫血、生殖器官炎症和神经系统症状,并最终导致死亡;感染牛和水牛后会导致慢性感染,表现为消瘦、厌食、贫血和生产力下降,给养殖业造成了巨大的经济损失。已经报道了几起人伊氏锥