论文部分内容阅读
随着知识经济时代的到来,信息已成为这个时代的最重要标志之一,对于信息的获取与管理也越来越得到重视。信息的表现形式也从最初的结构化、半结构化逐渐向非结构化过渡。对于非结化信息的组织和处理显得越来越重要,文本分类作为其中的关键技术之一,已广泛用于信息检索,知识挖掘和管理等领域,但对于海量的文本信息,文本分类的效率与精确度严重制约着它在即时领域的应用和推广。当前较常用的文本分类算法主要是基于统计的,较著名的有贝叶斯(Bayes)、K最邻近法(KNN)、支持向量机(SVM)、神经元网络(Nnet)等。其中,KNN作为一种简单、高效、非参数的方法,取得了较好的分类效果,使其得到较为广泛的应用。但KNN算法的大计算量限制了它在即时领域的应用,因此如何有效地提高KNN算法的分类效率得到了学者们的广泛关注。本文的研究重点是如何在不牺牲分类精度的前提下,提高文本分类的效率。本文首先提出了概念聚合,在概念聚合的基础上提出文本特征位串和特征多类别矩阵两种方式,从不同的角度来提高文本的分类效率。本文研究的主要创新部分有:1、基于语义相关的概念聚合。在文本的特征词中常常会出现一些义同形异的词,传统的相似度计算中,由于无法判别这类词的关系,而忽略它们在文本相似的作用,本文将对这类词进行语义聚合,形成概念。实验结果显示,关于概念的聚合能有效的表达出这类特征词的含义,使得在相似度计算中,能充体现这类词对文本相似度的贡献,提高文本分类的精度,同时也降低了文本向量的维数。2、通过文本特征位串来减小KNN算法的计算量。针对KNN算法计算量大的问题,提出文本特征位串来快速的筛选出与待分类文本可能相似的文本,即选出与待分类文本存在概念共现的文本,从而缩小进行KNN相似度计算的训练文本集,达到减小KNN计算量的目的。理论分析和实验结果表明,文本特征位串能在不降低分类准确率的情况下,提高KNN算法的分类效率。3、提出特征多类别矩阵来降低KNN算法的计算量。在KNN算法中,要减小计算量,除了尽快找出与KNN算法相似度不为零的文本外,还可以通过尽快去除那些不可能是待分类文本所属类别,而特征多类别矩阵便能够通过缩小文本可能的归属类别来降低算法的计算量。实验表明,特征多类别矩阵能有效提高KNN算法的分类速度。