基于主题模型的文本分类技术与应用的研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:happy_0421
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在如今信息数据大爆炸的时代,数据的增长非常迅猛,而且其中大部分数据是非结构化数据,这些数据中蕴藏着大量且重要的知识等待着我们用合理的办法将其挖掘出来,如何方便合理快速的进行文本分类也是一个非常重要的课题。论文主要围绕以下三方面展开工作:传统的文本分类方法应用有限,分类效果略差,而基于主题模型的文本分类应用前景广阔,在一些领域效果明显,如信息检索,新型社会媒体,情感分析,学术文章,网络数据等,本文对主题模型在这些方面的应用做了详细的阐述。本文实现了一种半监督的LDA(Latent Dirichlet Allocation)模型,其实现方法是对每个主题,加入一个与主题相关性很强的单词集,用MCMC(Markov Chain Monte Carlo)的 Gibbs 抽样计算模型参数,获取主题在文本上的概率分布,从实验结果看出,半监督LDA模型得到的与主题相关的词数更多,出现与主题词偏移的情况更少,明显好于无监督的LDA模型。将半监督的LDA模型与无监督的LDA模型应用于文本分类的特征选择过程,分别与常用的文本分类特征选择的互信息,信息增益,文档频率,卡方统计量等方法进行对比,实验结果表明半监督LDA模型与LDA模型在应用于特征选择时,性能相似,此两种方法比其他几种性能最好的卡方统计量方法性能好。
其他文献
光催化剥色是处理纺织品染色疵病的一种方法。与传统的剥色方法相比,光催化剥色具有剥色简单、工艺流程短、高效环保、无污染等特点。因此,研究一种绿色、环保的光催化剥色方
阿尔茨海默病(Alzheimer’s disease,AD)最主要的病理特征是β-淀粉样蛋白((β-amyloid protein,Aβ)沉积和tau蛋白过度磷酸化导致的神经原纤维缠结(neurofibrillary tangles
目的探讨锁骨钩钢板治疗锁骨远端不稳定骨折的疗效。方法2003年至2006年应用锁骨钩钢板治疗28例锁骨远端不稳定骨折,所有病例均为Neer分型Ⅱ型。结果所有患者均获随访,随访4-12
细胞病理学是病理学的分支学科和重要组成部分,是通过观察细胞形态作出疾病诊断的一门形态学学科。结合细胞病理学学科特点和培养目标的要求,探索以多媒体演示教学方法为主、
目的对外伤性股骨大段骨缺损采用交锁髓内钉固定加同种异体骨移植治疗的探讨。方法对11例股骨大段骨缺损手术治疗的回顾性分析。结果发生1例慢性免疫排斥反应,1例骨不连,本组愈