论文部分内容阅读
现如今的计算机网络技术发展日新月异,人们在享受网络便利的同时,也对冗杂的信息感到力不从心。因此人们希望通过简单操作,便可以找到最有价值的信息。相较于其他类型的信息,这种需求在文本信息方面尤为突出,而文本分类技术是解决此类问题最常用到的手段之一。文本分类技术大体来说,是在分类前先设定出不同的文本类别,之后再由计算机尽可能正确地,把要分类的文本归类到预设类别中。这种技术有一个很大的限制,就是要求所有的文本数据必须在相同分布下。但在实际操作中,有很多实例中的训练文本和测试文本会因为时间变化等原因而出现差异,既文本之间不同分布但却有相关性。为了突破这个瓶颈,本文将迁移学习框架引入其中,这是因为迁移学习既不要求数据必须同分布,也不要求样本中有大量的标记数据,而是依靠一些与测试文本有相关性的文本数据去辅助训练分类器,从而提高文本分类效果。在考虑文本数据的特征时,本文通过使用LDA(Latent Dirichlet Allocation)主题模型技术,来挖掘文本的主题特征。主题特征相较于词特征具有很大的优势:首先是主题对文本的含义具有高度概括性,其次是主题特征的维度更低、最后是分类效果不受词频或者无用词的干扰。将LDA主题模型与迁移学习文本分类算法相结合,提出TL-LDA算法。将此算法在数据集上进行实验,并与传统的文本分类方法对比、分析,从实验结果中表明,TL-LDA算法具有良好的性能。并在智能组卷系统中的主观题评分模块,利用TL-LDA算法,为学生主观题答案进行评测,并给出得分。