基于KNN算法的中文文本自动分类

被引量 : 0次 | 上传用户:kevil2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技和互联网技术的发展,人们可以获得的信息资源越来越多,但这些信息资源散布于各类数据库中,因此如何从各类数据库中挖掘信息和知识,成为人们着重研究的课题。在很多不同的研究领域,均涉及到了数据挖掘和数据库中的知识发现。根据挖掘对象的不同,数据挖掘可分为关系数据库挖掘、数据仓库挖掘、事务数据库挖掘、文本数据库挖掘、Web信息挖掘和图像、音频、视频等多媒体数据库挖掘等。通常人们只是对于信息资源中有着结构化、组织化的信息研究的较多,而对于在信息资源中占比重较大的文本数据,由于其缺乏结构化、组织化的规整性,人们很少涉猎其中,因此大大降低了文本信息的利用效率,而运用文本自动分类技术将大大提高人们利用信息资源的效率。与此同时,信息数据量的爆炸性增长使得传统的手工处理方法变得不切合实际,因此需要采用自动化程度更高、效率更好的数据处理方法,帮助人们更高效地进行文本分类,从而使快速有效地获取文本信息成为可能。目前特别是互联网技术在中国的普遍应用,针对中文文本的自动分类更是成为需要迫切解决的问题。文本自动分类就是由计算机自动提取文本的特征项,依据一定的算法,将文本按照内容或属性归到一个或多个类别的过程。其流程为:对中文文本编码的转换,中文文本的分词处理,提取文本的特征词,计算文本和类模板之间的相似度,根据阈值确定该文本所属的类别。目前文本的自动分类应用的领域主要有电子商务、网站设计、搜索引擎等。本文在已有的研究基础上,从数据挖掘定义、数据挖掘任务、数据挖掘方法、数据挖掘分类和文本数据库挖掘等方面介绍了数据挖掘的相关知识。同时系统的阐述了中文文本自动分类系统目标、组成和流程。在此基础上,本文主要做了以下几方面的工作:1)中文分词。它是处理中文文本分类的基础,把中文句子切分成词串,就可以对中英文统一进行处理。中文分词的核心问题是歧义处理,中文歧义用两种:交集型歧义和组合型歧义,其中交集型歧义占绝大多数(85%以上),是歧义处理的重点也是难点。本文根据歧义字段的宏结构对交集型切分歧义进行分类并提出处理交集型切分歧义的4条原则:1、尽量成词: 即如果整个交集字段是一个词,则不作切分;否则使切分结果各部分尽可能成为多个汉字构成的词,尽量避免出现切分结果是多个单个汉字构成的词的情况;2、成语、熟语优先: 如果待切分字段中含有成语或熟语,则尽可能保证该部分成词;符合语法规则: 切分结果必须符合语法规则,不允许出现诸如“形容词+动词”的情况;3、正向最大匹配优先: 用于出现几种合理的切分结果的情况。<WP=49>在以上原则的指导下,给出了处理各主要歧义类型的规则。并建立了基于规则的分词系统。2)建立文本的向量空间模型。词的权重不仅和频率以及在不同文本中的分布有关,还和特征词词长、特征词位置等因素有关。另外还应该从语义的角度去“理解”文本中的术语。特征词的长度是决定特征词权值的重要因素。对于中文文本信息,词的长度越长,则该词出现在文本中的几率就越小,反过来说,出现在文本中的较长的词,有理由相信它比短词包含更多的信息。特征词的权值大小还与特征词出现在文本的位置有关。比如位于标题及副标题的特征词最能表现文本的中心思想,应在该文内赋予较高的权重。在现有研究水平下,对文本进行受限的语义分析还是可行和有效的。如可以找出文本中的一些“关键句”,例如那些包含诸如“关键在于…”,“主要目的是…”等的句子,对于这些句子中出现的词也应该增大其特征权值,生成挖掘目标的特征向量。同时采用了词串树与信息熵的思想完成非完整词串的取舍工作,将非完整词串按内容加以分类建立词串树,并依据词频对词串树中的词进行取舍。根据以上分析,确立了提取特征词的方法,并在在两个基本原则(完全性和区分性)指导下选取特征项集,从而形成文本的向量空间表示形式。建立训练文本库和分类模型。针对于得到的语料库,在未知其类别的情况下通过聚类分析和人工干预相结合的手段,确定每个训练文本所属的类别,从而建立训练文本库。确定训练文本的类别,就需要计算文本之间的相似度。而文本相似度计算的实质就是特征属性权值的计算。先计算测试文本与训练文本之间的距离,然后依据测试文本与训练文本的距离远近来确定类别。显然,它没有非常显别地考虑特征属性关联及其共现等因素对文本相似度的影响,可以认为恰当的考虑关联与共现等因素, 文本相似度计算的效果应当更好。根据语言学知识,一定层次上的语义是由一定范围的词汇共同表达的词汇构成语义链。语义链中不仅有规范的词汇,而且有规范的次序。语义链的重现,就可以为彼此表达同一语义,而且能进一步认为,语义链重合量越多,那么语义同一性越大。向量空间中,每一个元素对应一个经过提取之后的文本特征,可以认为它就是语义链的一个组成部分。一个文本中的所有特征,构成了文本的整个语义,特征之间的相互关联和共现,对于文本相似度来说是很有意义的。然而,传统向量空间模型中相似度的计算没有很好地考虑到特征词之间的相互关联与共现,使分类结果不甚理想。而恰当的考虑关联与共现等因素,
其他文献
目的:观察参麦注射液在失血性休克早期液体复苏中的救治作用。方法:将失血性休克早期患者分为观察组与对照组,两组一般治疗措施相同(均给予常规抗休克治疗,包括吸氧、心电监护、纠
随着建筑市场的蓬勃发展,我国目前建筑工程项目多、投资大、工期长,工程正在向大型化、综合性、系统性发展。对于建筑设计行业,传统的管理与保存图纸的方式是人工生成与保管图纸
将微机电系统(MEMS)与光器件融合于一体的微光机电系统(MOEMS)是MEMS的一个重要的研究方向,它采用微细加工的技术手段,把微光学器件、微电子器件和微机械结构或装置集成在相兼容的
采用模拟驾驶对司机进行培训,司机在模拟的线路上进行操作,相当于在不具备驾驶资格时,新司机进入了真实的工作状态,开始积累操作经验。这种培训司机的方式,更符合教育学的观
提高天气预报的准确率是避免和减轻气象灾害损失的必要保障,本文将针对提高天气预报准确率进行深入的探析,文章对影响天气预报准确率的因素进行了梳理,针对准确率的提高提出
利率市场化脚步的不断推进,使得商业银行只有不断地创新产品和业务模式,才能在激烈的市场竞争中立于不败之地。供应链金融正是这样一种新型的业务模式,它与结构性贸易融资得
目的探讨肾移植术后留置末端带线输尿管单J管的不良反应及防治策略。方法回顾性分析河南中医药大学第一附属医院2007-12—2017-12间行同种异体肾移植术中留置末端带线输尿管
本文主要研究内燃机活塞环-缸套摩擦副作往复运动时的摩擦过程特性。活塞环与缸套间的摩擦功率损失是整个内燃机功率损失的重要部分,降低摩擦功耗,提高内燃机效率有重要意义。
电动自行车以其经济、环保、轻便的特点日益受到人们的青睐。然而电动车的"抛锚"问题一直困扰着人们。太阳能车棚不仅具备普通车棚应具有的功能,还能在车棚上安装太阳能电池
本文详尽介绍嗒嗒球的由来,以及开展这项活动的条件、教学内容、教学目标、教学过程、教学评价和教学效果。