基于改进主题模型的中文文本分类方法

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:yjqycq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的飞速发展使互联网上的数据量不断增加,如何从海量数据中挖掘有用的信息受到越来越多的人关注。海量数据是以文本为主的非结构化数据。文本分类是管理海量文本信息的一种有效方法,也是自然语言处理中的重要研究课题。文本的高维性、高稀疏性的特点给文本分类增加了难度,因此,如何降低文本数据的维度、提高文本分类器的性能是研究的重点。主要工作如下:提出一种基于词性和词性组合改进的LDA模型,即PSC-LDA模型。该模型考虑中文中不同词性的词对语义表达的贡献差异,将语料库根据词性和词性组合划分为名词集、动词集、名词动词组合集、其他词集(形容词和副词组合集),PSC-LDA模型在不同数据集上构建模型,采用Gibbs采样算法估计模型参数,进而获得数据集的文本-主题混合概率分布。基于复旦大学李荣陆提供的文本分类语料库,通过实验确定了PSC-LDA模型的最优词集和最优主题数目,实验结果表明,PSC-LDA模型的建模时间比标准LDA模型降低了39.44%,建模所需的训练数据的维度降低了37.74%。提出一种基于PSC-LDA模型与SVM算法的中文多类文本分类方法,即PSC-LDASVM方法。该方法能有效地从大规模文本中挖掘潜在主题信息,具有较强的降维和特征表示能力,同时能够较好地解决线性不可分、局部最优等问题。基于此,进一步将PSC-LDASVM方法与PSC-LDAKNN、LDASVM、VSMSVM方法的文本分类性能进行对比,PSC-LDASVM方法的宏准确率分别高于其他三种方法4.6%、4.3%、5.3%,宏召回率分别高于其他三种方法4.9%、5.5%、7.1%,宏1值分别高于其他三种方法4.9%、5.1%、6.5%。
其他文献
本文针对儿童声乐教学,就如何进行科学的声乐训练以及如何进行情感表达提出了自己的观点,使得孩子们通过上述两方面的训练,更加科学的利用好自己的发声器官,拓宽他们的音域,
目的 分析乳腺磁共振与钼靶X线摄片在乳腺癌中的诊断价值.方法 回顾性分析31例乳腺癌的病例资料.结果 31例乳腺癌患者中,乳腺磁共振检出27例,占87.10%;乳腺钼靶X线摄片检出19
在分析基于信息系统的作战指挥效能评估特点的基础上,提出了"嵌入式"作战指挥效能评估策略;按照指挥实体、指挥活动、指挥效果3个层次,梳理了指挥主体效能、指挥信息系统效能
研究了GA3对辽东楤木种子在变温(每天高温13~15℃12 h,低温0~4℃12 h)层积条件下解除休眠过程中部分信号分子变化的影响.结果表明:200 mg/L的GA3丙酮溶液可以极显著促进辽东楤木种
见义勇为者行为违法造成他人人身伤害,是否应当承担法律责任?按照现行法律,答案是肯定的。见义勇为是一个道德概念,但符合道德标准的行为不一定符合现行法律,法官应该选择保护法益
微流控技术是在尺度为几个或上百微米的通道中操纵纳升或纳升以下流体的技术,作为一种全新的领域,它给化学合成、生物分析、光学和信息学带来了重大的影响。本文将综述微流控
装备制造业是我国机械工业的主体部分和主力军,是国民经济的基础性、战略性产业,是衡量一个国家综合国力和科学技术水平的重要标志,在国民经济建设、发展和国防建设中具有重
针对地膜残留污染已经成为河套灌区主要的面源污染物的问题,试验以5种可降解地膜为供试材料,在内蒙古河套灌区向日葵主产区开展了田间试验。结果表明:与不覆膜的对照相比,覆
虚拟企业的运作中存在着实物价值链和虚拟价值链。信息活动及其增值过程主导着虚拟价值链,使企业能够整合外部资源为已所用,形成以市场需求和顾客定制为导向的敏捷的生产系统
目的:探索液态发酵法合成雪峰虫草活性物质的基础工艺,为雪峰虫草资源的综合开发提供必要技术支持。方法:利用液态发酵技术对雪峰虫草菌丝体进行培养,并通过培养基组成和培养条