论文部分内容阅读
随着因特网的飞速发展,人们可以从网络上获取越来越多诸如文本、图片、视频等各种形式的信息,而其中半结构化或无结构化的文本信息占据了很大一部分。如何利用文本分类技术对这些文本信息进行分门别类是非常重要的。文本分类技术在一定程度上解决了信息杂乱的问题,而且它已成为搜索引擎、垃圾邮件过滤等领域的基础。所以,对文本分类的研究有着重要的意义。 本文首先介绍了中文文本分类所涉及到的相关理论,如:向量空间模型、特征选择、分类方法、评价指标、权重计算方法以及相似度计算方法。 其次通过对权重计算算法TFIDF的分析研究,针对传统TFIDF算法忽略特征项的在整个样本集上各个类之间的分布情况这一不足,在传统算法中增加了表示特征项在各个类间的分布情况的不均衡变量以及表示类内各个文本间分布情况的参数,使改进后的权重计算方法更能够体现出特征项的类别贡献率。对信息增益特征选择方法进行了分析,针对信息增益方法在样本集不均匀时,性能大幅下降的缺点,引入了体现特征项类别表征能力的分散度和集中度两个变量,使信息增益方法进一步提升性能。对KNN和SVM分类方法进行了分析,在此基础上,针对SVM方法在最优分界面附近分类准确度降低的缺点和KNN分类速度慢的缺点,提出了SVM-KNN分类方法,提高了分类精度和速度。并针对该算法在样本分布不平衡时存在的不足之处,加入了惩罚机制,进行了改进。 在理论研究的基础上,构建了一个包括预处理模块、权重计算和特征选择模块、分类模块以及性能评测模块四个功能模块的中文文本分类系统,用C++语言实现。最后利用实现的中文文本分类系统作为测试平台,利用Sogou实验室语料库语料为样本集,通过实验验证了对权重计算和特征选择算法以及SVM-KNN分类算法改进的有效性和可行性。