论文部分内容阅读
主题模型是一种强大的文本处理技术,在诸多领域之中都有广泛地应用。经过不断地发展,主题模型已具备了相对完善的理论,拥有适用于不同场景的解决方案,是一种相对成熟的文本处理工具。但在主题模型中仍然存在着一些缺陷,如在线LDA算法使用了固定的词汇表,导致其无法对数据流中出现的未知词汇进行有效地处理。本文针对这一问题展开了研究,提出了使用狄利克雷过程的词汇增量式在线LDA模型(ⅳLDA),并基于ⅳLDA的原理,提出了两种关注不同领域、适用于不同场景的实现方案,并以此提出了两种算法:在预测混淆度(Perplexity)上表现良好的ⅳLDA-Perp算法和在互信息(PMI)指数上表现良好的ⅳLDA-PMI算法。本文的主要贡献有以下三点:1)针对在线LDA算法存在的词汇表固定的缺陷,提出了拥有单词可添加特性的ⅳLDA模型。ivLDA通过使用狄利克雷过程作为其主题单词分布,解决了在线算法的缺陷。通过引入狄利克雷过程,ⅳLDA拥有了单词可添加的特性,使ⅳLDA在运行之前无需预先确定词汇表,而是在ⅳLDA运行的过程中,遇到未包含在词汇表中的单词时,ⅳLDA可以将其添加到词汇表中再基于更新后的词汇表对语料进行处理。与在线算法相比,ivLDA的运算更加贴合语料,模型精度更高。2)基于ⅳLDA的原理,提出了相较于dvOBP和infvoc-LDA更为优秀的狄利克雷过程构造方案,并以此提出了 ivLDA-Perp算法。狄利克雷过程是一个理论化的概念,将其应用在算法中需要一个具体的实现方案。与dvOBP和infvoc-LDA的方案相比,本文提出的方案使用了更加符合实际情况的均匀分布作为狄利克雷过程的基础分布,并拥有更为合理的权重分配方式。基于该方案,本文提出了ivLDA-Perp算法。ⅳLDA-Perp更加关注模型的精度,在预测混淆度上有着良好的表现。通过实验证明,与其它算法相比,ivLDA-Perp算法有着更高的性能和预测能力。3)基于ⅳLDA的原理,提出了针对主题重复问题所设计的解决方案,并以此提出了ivLDA-PMI算法。ivLDA-PMI通过重新设计消息更新公式解决了主题重复的问题,与同样针对主题重复问题提出解决方案的infvoc-LDA相比,ⅳLDA-PMI的表现更为优秀。通过实验证明,与其它算法相比,ⅳLDA-PMI具有良好的主题表征能力和更高的实用价值。