基于SVm-KNN的文本分类系统的设计与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:jnd411525477
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着因特网的飞速发展,人们可以从网络上获取越来越多诸如文本、图片、视频等各种形式的信息,而其中半结构化或无结构化的文本信息占据了很大一部分。如何利用文本分类技术对这些文本信息进行分门别类是非常重要的。文本分类技术在一定程度上解决了信息杂乱的问题,而且它已成为搜索引擎、垃圾邮件过滤等领域的基础。所以,对文本分类的研究有着重要的意义。  本文首先介绍了中文文本分类所涉及到的相关理论,如:向量空间模型、特征选择、分类方法、评价指标、权重计算方法以及相似度计算方法。  其次通过对权重计算算法TFIDF的分析研究,针对传统TFIDF算法忽略特征项的在整个样本集上各个类之间的分布情况这一不足,在传统算法中增加了表示特征项在各个类间的分布情况的不均衡变量以及表示类内各个文本间分布情况的参数,使改进后的权重计算方法更能够体现出特征项的类别贡献率。对信息增益特征选择方法进行了分析,针对信息增益方法在样本集不均匀时,性能大幅下降的缺点,引入了体现特征项类别表征能力的分散度和集中度两个变量,使信息增益方法进一步提升性能。对KNN和SVM分类方法进行了分析,在此基础上,针对SVM方法在最优分界面附近分类准确度降低的缺点和KNN分类速度慢的缺点,提出了SVM-KNN分类方法,提高了分类精度和速度。并针对该算法在样本分布不平衡时存在的不足之处,加入了惩罚机制,进行了改进。  在理论研究的基础上,构建了一个包括预处理模块、权重计算和特征选择模块、分类模块以及性能评测模块四个功能模块的中文文本分类系统,用C++语言实现。最后利用实现的中文文本分类系统作为测试平台,利用Sogou实验室语料库语料为样本集,通过实验验证了对权重计算和特征选择算法以及SVM-KNN分类算法改进的有效性和可行性。
其他文献
该文深入讨论了单元素表、通用表以及规范化通用表映射方案的优缺点,从存储空间和操作效率等方面综合考虑,提出了一种基于WL数据挖掘算法的无损映射方案.在此基础上,对不同类
人脸检测是指利用计算机在图像中定位人脸,并给出人脸的大小、位置、数目等信息,为人脸特征的获取奠定基础。近些年来,人脸检测技术已经成为模式识别与计算机视觉领域中一个
自面向对象技术问世以来,人们已提出了数十种不同的类内聚度度量方法。这些度量方法在软件工程的各个领域内已得到了广泛应用。虽然度量方法众多,但是这些度量方法在适用性及准
论文主要从以下方面展开论述:一.课件的发展及开发技术概述,模块化课件开发概念及参考模型;二.设计CAMP平台所需的相关技术研究;三.提出模块化课件开发的改进模型,在此基础上
随着信息传播速度的快速提升,可供查阅的科技文献数量也在迅速增加。用户想要在上千条引文查询结果中找到自己需要的结果是一件很困难的事情。查询结果推荐是解决这个问题的
随着人们生活水平的提高,视频会议,视频电子邮件,可视电话等数字视频通信应用需求的增加,越来越需要在公用电话网(PSTN)或无线网络中传输视频数字信号。但是,公用电话网和无线网络
该文所提出的面向表现的Web工程是Web工程的一个新的研究方法,其目的是解决Web应用开发中数据表现与业务逻辑代码相互混合所带来的诸多问题,从而降低代码错误率、提高系统的
本文研究的主要内容是在现有的IP基础上实现多媒体通信功能,并在理论上给出了多媒体通信系统的设计方案。本文在骨干网络层给出了路由器配置方案;在接入网络层给出接入网络的设
本文重点阐述了大连服装机械加工厂的计算机辅助工艺设计(CAPP)系统的开发过程。本系统基于数据库和Intranet技术,实现机械产品与零部件加工工艺的计算机辅助设计、存储和各种
该论文介绍基于Internet的拨号用户管理认证计费系统.论文首先介绍了开发应用软件的基本技术和基本理论,然后对多进程的Radius Server的软件结构、多进程共享有限的数据库连