一种基于狄利克雷过程的主题模型

来源 :苏州大学 | 被引量 : 0次 | 上传用户:by_huang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
主题模型是一种强大的文本处理技术,在诸多领域之中都有广泛地应用。经过不断地发展,主题模型已具备了相对完善的理论,拥有适用于不同场景的解决方案,是一种相对成熟的文本处理工具。但在主题模型中仍然存在着一些缺陷,如在线LDA算法使用了固定的词汇表,导致其无法对数据流中出现的未知词汇进行有效地处理。本文针对这一问题展开了研究,提出了使用狄利克雷过程的词汇增量式在线LDA模型(ⅳLDA),并基于ⅳLDA的原理,提出了两种关注不同领域、适用于不同场景的实现方案,并以此提出了两种算法:在预测混淆度(Perplexity)上表现良好的ⅳLDA-Perp算法和在互信息(PMI)指数上表现良好的ⅳLDA-PMI算法。本文的主要贡献有以下三点:1)针对在线LDA算法存在的词汇表固定的缺陷,提出了拥有单词可添加特性的ⅳLDA模型。ivLDA通过使用狄利克雷过程作为其主题单词分布,解决了在线算法的缺陷。通过引入狄利克雷过程,ⅳLDA拥有了单词可添加的特性,使ⅳLDA在运行之前无需预先确定词汇表,而是在ⅳLDA运行的过程中,遇到未包含在词汇表中的单词时,ⅳLDA可以将其添加到词汇表中再基于更新后的词汇表对语料进行处理。与在线算法相比,ivLDA的运算更加贴合语料,模型精度更高。2)基于ⅳLDA的原理,提出了相较于dvOBP和infvoc-LDA更为优秀的狄利克雷过程构造方案,并以此提出了 ivLDA-Perp算法。狄利克雷过程是一个理论化的概念,将其应用在算法中需要一个具体的实现方案。与dvOBP和infvoc-LDA的方案相比,本文提出的方案使用了更加符合实际情况的均匀分布作为狄利克雷过程的基础分布,并拥有更为合理的权重分配方式。基于该方案,本文提出了ivLDA-Perp算法。ⅳLDA-Perp更加关注模型的精度,在预测混淆度上有着良好的表现。通过实验证明,与其它算法相比,ivLDA-Perp算法有着更高的性能和预测能力。3)基于ⅳLDA的原理,提出了针对主题重复问题所设计的解决方案,并以此提出了ivLDA-PMI算法。ivLDA-PMI通过重新设计消息更新公式解决了主题重复的问题,与同样针对主题重复问题提出解决方案的infvoc-LDA相比,ⅳLDA-PMI的表现更为优秀。通过实验证明,与其它算法相比,ⅳLDA-PMI具有良好的主题表征能力和更高的实用价值。
其他文献
目的对非瓣膜性房颤抗凝治疗中应用达比加群酯的效果进行分析探讨。方法从我院2016年4月~2017年4月收治的非瓣膜性心房颤动患者中,选取120例作为研究对象,按照数字表法分为对
护理前辈南丁格尔说过:"护士其实就是没有翅膀的天使,是真善美的化身;要用爱心、耐心、细心、责任心对待每一位病人.""护理是一门科学,是一种看顾的艺术--从事这门艺术需要有
<正>1 引言: 近年来,海洋污染和生态环境退化正以惊人的速度在加快。因此建立新的研究方法,对近岸大气、海水及沉积物中的痕量有污染物(如PAHs等)进行现场动态监测,研究其在
四民分业,士农工商;寓税于价;以商止战等管仲的经济学思想不仅在当时使齐国一度繁荣,齐桓公成为春秋时代的第一个霸主而且对于我国中国特色社会主义市场经济的发展仍具有借鉴
随着小麦参考基因组序列的日趋完善,品种及其突变体重测序将会成为小麦功能基因发掘的重要途径。但是作为异源六倍体,小麦在自然或人工进化中,常发生染色体变异,形成丰富的非
研究了3,3-双(叠氮甲基)环氧丁烷(BAMO)废水中叠氮根含量的测定方法。考察了入射波长、酸度、显色剂用量、反应温度和时间等对测定体系的影响。加入3ml pH为6的NaOH-KH2PO4缓冲液,
对"七"药命名来历进行考证,以往诸说法皆依据不足。认为"七"来源于北斗崇拜,因为古人认为北斗具有"司命"职能;"七"与"还阳"涵义相同,"七"药与"还阳"药属于同类,因该类药数量