论文部分内容阅读
随着移动互联网与社会网络的高速发展,人们可以随时随地产生和分享信息,这些信息大多都可以转化成为文本内容而沉淀下来。对这些文本内容的快速、高质量的进行分类处理已成为文本挖掘和自然语言处理领域学者们的研究重点。目前,文本分类技术已经在搜索引擎、个性化推荐系统、舆情监控等应用领域得到了广泛的应用,是实现高效管理和准确定位海量信息的重要一环。但是当前文本分类的性能并不理想,有非常大的改进空间。本文重点研究基于主题模型(Topic Model,标签LDA)的文本分类技术。主要的研究内容包括:1)针对传统LDA模型无法纳入标签信息的问题,Labeled-LDA通过将标签和类别进行映射起来,能够很好的对原始数据和标签信息进行建模。但是这种硬性的关联会造成过拟合,导致分类性能的降低。而且Labeled-LDA模型中的标签和类别是一一映射的,本文提出一种改进的标签LDA模型,将类别映射为若干个主题之间的组合,同时将主题分为共享和自有的部分,来使得更好的符合真实文本的产生式过程。改进的标签LDA模型生成的结果具有更好的多标签分类的能力,同时还可以用于摘要和聚类等应用。2)原始数据的偏斜是影响分类系统性能的一大问题。在总结处理该问题的基础上,提出了一种基于主题模型的偏斜处理方法。实验表明,经过该步骤处理后的分类系统性能优于传统方法,并且在不同偏斜程度的语料集上效果比较稳定。