文本挖掘方法探讨及应用

被引量 : 17次 | 上传用户:applexiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的大规模普及和企业信息化程度的提高,因此如何自动处理这些海量联机文本成为目前重要的研究课题。文本挖掘(Text Mining)技术就可以快速、有效的从海量的数据中提取出对用户有用的信息,而文本分类是文本挖掘中最重要和应用最广的一项技术。 本文首先介绍了文本挖掘的一些基本概念和文本挖掘的相关知识背景,各种理论和方法。对文本挖掘所涉及的关键技术,包括文本表示模型、特征提取、评估方法和常用方法进行了详细的理论阐述和算法描述。并着重对特征提取和朴素贝叶斯分类算法进行了详细的介绍。 然后本文提出并实现了一种改进互信息的特征提取和支持朴素贝叶斯的文本分类系统,介绍了系统实现中主要过程和一些主要的技术问题。 最后,对改进互信息的特征提取和朴素贝叶斯的文本分类系统进行试验,结果表明本算法和系统具有较高的分类准确率。
其他文献
目前,国有企业人才流失现象严重,已严重影响了国有企业竞争力,成为了企业可持续发展的瓶颈,极大阻碍了国有企业的健康发展。为有效抑制企业人才流失,企业应树立科学的人力资
目前,天然橡胶(NR)的接枝改性主要是通过自由基聚合法。该法由于很难控制聚合反应的链终止和链转移反应,因此难以精确控制接枝链的分子量,其接枝密度也是无法确定的。将原子
介绍结构化电子病历的含义,阐述在电子病历实施过程中如何制作结构化电子病历模板、建立患者主索引并集成各信息系统,引导临床医生正确认识电子病历功能和规范。
实验分析结果表明,祁阳白水话的声调系统共有6个单字调,调类、调值分别为:阴平4453,3342、阳平231、上声453、阴去4232、阳去2143、入声442,祁阳白水话的声调曲拱复杂,具有过
许多所谓难治性疾病其实质是由炎症所导致的机体组织损伤。乙型肝炎的发病机制,也是由于机体免疫系统引发的炎症对肝细胞的损伤。巨噬细胞是机体免疫系统的重要细胞成份,分泌多
随着互联网的迅速发展,使得网络舆论在突发事件中具有强大影响力,甚至改变政府应对突发事件的一些方式、方法。但是,随着"网络舆论暴力"、"网络舆论非理性化"的出现,使网络舆
目的:总结归纳《局方》内科用药规律,探索从药物属性判定方剂功效倾向性的研究方法。方法:以《局方》卷一至卷六所收录方剂为研究对象,用Excel建立数据表,利用聚类方法挖掘各卷
外商投资性公司是外国投资者在中国以独资或与中国投资者合资的形式设立的从事直接投资的公司。 按照我国《民法通则》等基本法律的现行规定,法人国籍是依据“注册登记地
<正> 1986年2月6月,杨怀中作为第一位到美国讲自己民族历史文化的回族学者,站在世界著名高等学府——哈佛大学的讲坛上,面对来自世界各地研究回族和伊斯兰文化的学者,充溢着
农村文化的衍生与变迁虽然是由社会事件引起的,但需要通过微观层面的个体来实现,并且个体行动的分析视角有利于进行过程与互动关系的讨论。本文以冀中南G村的文化变迁及农民