文本分类中基于概念聚合的KNN算法优化问题研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:qiyueliuhua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着知识经济时代的到来,信息已成为这个时代的最重要标志之一,对于信息的获取与管理也越来越得到重视。信息的表现形式也从最初的结构化、半结构化逐渐向非结构化过渡。对于非结化信息的组织和处理显得越来越重要,文本分类作为其中的关键技术之一,已广泛用于信息检索,知识挖掘和管理等领域,但对于海量的文本信息,文本分类的效率与精确度严重制约着它在即时领域的应用和推广。当前较常用的文本分类算法主要是基于统计的,较著名的有贝叶斯(Bayes)、K最邻近法(KNN)、支持向量机(SVM)、神经元网络(Nnet)等。其中,KNN作为一种简单、高效、非参数的方法,取得了较好的分类效果,使其得到较为广泛的应用。但KNN算法的大计算量限制了它在即时领域的应用,因此如何有效地提高KNN算法的分类效率得到了学者们的广泛关注。本文的研究重点是如何在不牺牲分类精度的前提下,提高文本分类的效率。本文首先提出了概念聚合,在概念聚合的基础上提出文本特征位串和特征多类别矩阵两种方式,从不同的角度来提高文本的分类效率。本文研究的主要创新部分有:1、基于语义相关的概念聚合。在文本的特征词中常常会出现一些义同形异的词,传统的相似度计算中,由于无法判别这类词的关系,而忽略它们在文本相似的作用,本文将对这类词进行语义聚合,形成概念。实验结果显示,关于概念的聚合能有效的表达出这类特征词的含义,使得在相似度计算中,能充体现这类词对文本相似度的贡献,提高文本分类的精度,同时也降低了文本向量的维数。2、通过文本特征位串来减小KNN算法的计算量。针对KNN算法计算量大的问题,提出文本特征位串来快速的筛选出与待分类文本可能相似的文本,即选出与待分类文本存在概念共现的文本,从而缩小进行KNN相似度计算的训练文本集,达到减小KNN计算量的目的。理论分析和实验结果表明,文本特征位串能在不降低分类准确率的情况下,提高KNN算法的分类效率。3、提出特征多类别矩阵来降低KNN算法的计算量。在KNN算法中,要减小计算量,除了尽快找出与KNN算法相似度不为零的文本外,还可以通过尽快去除那些不可能是待分类文本所属类别,而特征多类别矩阵便能够通过缩小文本可能的归属类别来降低算法的计算量。实验表明,特征多类别矩阵能有效提高KNN算法的分类速度。
其他文献
图书馆是学习知识的重要场所,馆藏图书数量巨大、类别齐全、质量不一。从中找寻所需的高质量图书,已成为读者借阅图书的迫切需要。现有的图书馆系统中虽然保存了大量的读者信息
传统的关系数据库查询须指出将要查询的属性名,不能像搜索引擎那样自由地进行关键词查询。关系数据库关键词查询(KSORD)可以在不了解关系数据库结构的前提下,实现对关系数据
企业资源规划(ERP)系统是一种将适合于企业的管理思想贯穿其中的企业管理系统。ERP系统的核心模块主要有进货、销售、库存、人事管理、财务管理等。  ERP软件的生命周期长,软
虚拟现实技术在各行各业的应用都得到了飞速的发展,在这样一个网络时代,越来越多的人们利用网络环境来完成现实生活中的各项活动,如:交友、娱乐、购票、模拟驾驶、消防演习、虚
人脸识别是模式识别领域的一个重要研究课题,已被广泛应用于门禁系统、考勤系统、安检、刑事案件侦破等领域中。与其他生物识别技术相比,人脸识别具有非接触式、可靠性强等优点
万维网作为广泛分布,巨大的全球信息服务中心,包含了各种动态,庞大的访问和使用信息,发现信息背后的知识,对于用户访问和个性化服务具有重要的意义。本文针对Web服务器日志的
在生活的各个领域,数据预测具有普遍性,对时间序列预测技术的研究具有深刻的现实意义。本文分别对线性、简单非线性及复杂非线性时间序列的预测问题进行研究。对现有时间序列预
由于基于物理方法的模型变形技术充分运用了待变形模型的物理属性如质量、密度及相关的物理学原理,能够很真实地再现可变形模型的运动形变,所以此类方法能够很好地模拟可变形三
近些年来,无线网络技术的发展取得了革命性的进步。涌现了一大批异构无线网络,这些形式各异的无线网络,共同组成了下一代泛在、异构的无线网络环境。下一代无线网络要求实现“5W
软件测试用来发现软件错误和缺陷,从而达到保证软件质量的目的。软件测试是软件开发周期中重要的环节。生成合适的测试数据是软件测试过程中的重点和关键。手工构造软件测试