论文部分内容阅读
随着信息技术的快速发展,网络上每天产生的文本数据量在以指数形式递增,致使文本分类系统中出现“维度灾难”和特征稀疏性高等问题,严重影响了文本分类的分类效果。因此,本文把文本分类中的特征选择算法作为主要研究对象,对CHI特征选择算法和信息增益特征选择算法进行了深入研究并做出了改进。针对传统的CHI特征选择算法未考虑词频信息,及放大了与文本类别负相关的特征词权值的缺陷,本文基于传统的CHI特征选择算法,提出了一种自调节的特征选择方法,该方法引入自调节比例因子,可自动调节与文本类别呈正、负相关的特征词的权值,消除了人为设置比例因子带来的误差,又引入了词频因子和类间方差,使最终选择出的特征词在特定文本类别中出现频数多而在其它的文本类别中分布较少,进而提高了特征选择的精确度。针对传统的信息增益算法未考虑词频信息和特征词离散度的不足,本文基于传统的信息增益算法,通过引入特征频度比和离散度信息,降低了文本集合中分布不均衡的特征词对特征选择的影响,再从传统信息增益算法的计算公式中剔除特征词未在文本类别中出现的情况,进一步优化了算法,从而提高了特征选择的精确度。本文设计了相关实验对两种改进算法进行验证,通过对比实验表明,改进的CHI算法在均匀语料库中获得较好的分类效果,改进的信息增益算法在非均匀语料库中获得较好的分类效果。