论文部分内容阅读
随着科技和互联网技术的发展,人们可以获得的信息资源越来越多,但这些信息资源散布于各类数据库中,因此如何从各类数据库中挖掘信息和知识,成为人们着重研究的课题。在很多不同的研究领域,均涉及到了数据挖掘和数据库中的知识发现。根据挖掘对象的不同,数据挖掘可分为关系数据库挖掘、数据仓库挖掘、事务数据库挖掘、文本数据库挖掘、Web信息挖掘和图像、音频、视频等多媒体数据库挖掘等。通常人们只是对于信息资源中有着结构化、组织化的信息研究的较多,而对于在信息资源中占比重较大的文本数据,由于其缺乏结构化、组织化的规整性,人们很少涉猎其中,因此大大降低了文本信息的利用效率,而运用文本自动分类技术将大大提高人们利用信息资源的效率。与此同时,信息数据量的爆炸性增长使得传统的手工处理方法变得不切合实际,因此需要采用自动化程度更高、效率更好的数据处理方法,帮助人们更高效地进行文本分类,从而使快速有效地获取文本信息成为可能。目前特别是互联网技术在中国的普遍应用,针对中文文本的自动分类更是成为需要迫切解决的问题。文本自动分类就是由计算机自动提取文本的特征项,依据一定的算法,将文本按照内容或属性归到一个或多个类别的过程。其流程为:对中文文本编码的转换,中文文本的分词处理,提取文本的特征词,计算文本和类模板之间的相似度,根据阈值确定该文本所属的类别。目前文本的自动分类应用的领域主要有电子商务、网站设计、搜索引擎等。本文在已有的研究基础上,从数据挖掘定义、数据挖掘任务、数据挖掘方法、数据挖掘分类和文本数据库挖掘等方面介绍了数据挖掘的相关知识。同时系统的阐述了中文文本自动分类系统目标、组成和流程。在此基础上,本文主要做了以下几方面的工作:1)中文分词。它是处理中文文本分类的基础,把中文句子切分成词串,就可以对中英文统一进行处理。中文分词的核心问题是歧义处理,中文歧义用两种:交集型歧义和组合型歧义,其中交集型歧义占绝大多数(85%以上),是歧义处理的重点也是难点。本文根据歧义字段的宏结构对交集型切分歧义进行分类并提出处理交集型切分歧义的4条原则:1、尽量成词: 即如果整个交集字段是一个词,则不作切分;否则使切分结果各部分尽可能成为多个汉字构成的词,尽量避免出现切分结果是多个单个汉字构成的词的情况;2、成语、熟语优先: 如果待切分字段中含有成语或熟语,则尽可能保证该部分成词;符合语法规则: 切分结果必须符合语法规则,不允许出现诸如“形容词+动词”的情况;3、正向最大匹配优先: 用于出现几种合理的切分结果的情况。<WP=49>在以上原则的指导下,给出了处理各主要歧义类型的规则。并建立了基于规则的分词系统。2)建立文本的向量空间模型。词的权重不仅和频率以及在不同文本中的分布有关,还和特征词词长、特征词位置等因素有关。另外还应该从语义的角度去“理解”文本中的术语。特征词的长度是决定特征词权值的重要因素。对于中文文本信息,词的长度越长,则该词出现在文本中的几率就越小,反过来说,出现在文本中的较长的词,有理由相信它比短词包含更多的信息。特征词的权值大小还与特征词出现在文本的位置有关。比如位于标题及副标题的特征词最能表现文本的中心思想,应在该文内赋予较高的权重。在现有研究水平下,对文本进行受限的语义分析还是可行和有效的。如可以找出文本中的一些“关键句”,例如那些包含诸如“关键在于…”,“主要目的是…”等的句子,对于这些句子中出现的词也应该增大其特征权值,生成挖掘目标的特征向量。同时采用了词串树与信息熵的思想完成非完整词串的取舍工作,将非完整词串按内容加以分类建立词串树,并依据词频对词串树中的词进行取舍。根据以上分析,确立了提取特征词的方法,并在在两个基本原则(完全性和区分性)指导下选取特征项集,从而形成文本的向量空间表示形式。建立训练文本库和分类模型。针对于得到的语料库,在未知其类别的情况下通过聚类分析和人工干预相结合的手段,确定每个训练文本所属的类别,从而建立训练文本库。确定训练文本的类别,就需要计算文本之间的相似度。而文本相似度计算的实质就是特征属性权值的计算。先计算测试文本与训练文本之间的距离,然后依据测试文本与训练文本的距离远近来确定类别。显然,它没有非常显别地考虑特征属性关联及其共现等因素对文本相似度的影响,可以认为恰当的考虑关联与共现等因素, 文本相似度计算的效果应当更好。根据语言学知识,一定层次上的语义是由一定范围的词汇共同表达的词汇构成语义链。语义链中不仅有规范的词汇,而且有规范的次序。语义链的重现,就可以为彼此表达同一语义,而且能进一步认为,语义链重合量越多,那么语义同一性越大。向量空间中,每一个元素对应一个经过提取之后的文本特征,可以认为它就是语义链的一个组成部分。一个文本中的所有特征,构成了文本的整个语义,特征之间的相互关联和共现,对于文本相似度来说是很有意义的。然而,传统向量空间模型中相似度的计算没有很好地考虑到特征词之间的相互关联与共现,使分类结果不甚理想。而恰当的考虑关联与共现等因素,