论文部分内容阅读
在如今信息数据大爆炸的时代,数据的增长非常迅猛,而且其中大部分数据是非结构化数据,这些数据中蕴藏着大量且重要的知识等待着我们用合理的办法将其挖掘出来,如何方便合理快速的进行文本分类也是一个非常重要的课题。论文主要围绕以下三方面展开工作:传统的文本分类方法应用有限,分类效果略差,而基于主题模型的文本分类应用前景广阔,在一些领域效果明显,如信息检索,新型社会媒体,情感分析,学术文章,网络数据等,本文对主题模型在这些方面的应用做了详细的阐述。本文实现了一种半监督的LDA(Latent Dirichlet Allocation)模型,其实现方法是对每个主题,加入一个与主题相关性很强的单词集,用MCMC(Markov Chain Monte Carlo)的 Gibbs 抽样计算模型参数,获取主题在文本上的概率分布,从实验结果看出,半监督LDA模型得到的与主题相关的词数更多,出现与主题词偏移的情况更少,明显好于无监督的LDA模型。将半监督的LDA模型与无监督的LDA模型应用于文本分类的特征选择过程,分别与常用的文本分类特征选择的互信息,信息增益,文档频率,卡方统计量等方法进行对比,实验结果表明半监督LDA模型与LDA模型在应用于特征选择时,性能相似,此两种方法比其他几种性能最好的卡方统计量方法性能好。