论文部分内容阅读
随着计算机网络技术的不断发展,电子文档逐渐成为人们获取文本信息的主要渠道。网络信息的多样性和文档的杂乱无章性对用户快速准确获取所需信息提出了巨大的挑战。文本分类是信息检索中对文档进行组织和整理的重要技术,然而不同于文本分类系统在实验室中处理的文本集合,在实际应用中尤其是出现在网络中的文本数据集合往往存在标注不全,数据集不平衡等问题。数据不均衡问题由于其在各领域应用的广泛性和重要性成为文本分类目前面临的一个主要问题,同时也是文本挖掘领域的研究热点。本文对不均衡数据集下的文本分类进行了一定的研究,从文本分类的特征选择方法和对量化后的文本数据层上的重取样两个角度出发提出了一种组合的针对不均衡数据集的文本分类方法。本文的主要研究内容如下:①对文本分类中的传统CHI统计特征选择方法和对改进的仅保留类别正相关性特征的CHI统计特征选择算法进行了研究,并在不均衡数据集上进行了实验,实验结果表明在均衡数据集上表现良好的CHI统计特征选择方法所得到的分类效果并不理想。②通过对不均衡数据集的研究分析,提出了对仅保留类别正相关性特征的单边CHI统计特征选择方法进行改进,首先引入一个小类加权因子用于保留部分对小类分类有贡献的表现为类别负相关性的特征词项,同时使用ICF(逆转类别频)增强特征选择过程中特征的类别区分能力,进而选择出最具类别代表性的特征词。使用特征集合将文档进行量化表示为向量空间模型。③为更好地解决由数据不均衡导致分类效果不佳的问题,本文提出对量化后的文本集合在数据层上进行重取样处理。首先采用随机上采样和随机下采样结合的重取样方法,该方法可以很好的实现对文本数据集不平衡性的过滤,获得相对均衡的数据集用于分类器的训练。但由于随机上采样算法极易产生分类过拟合问题,而且随机下采样容易删除掉一些对分类贡献较大的样本。所以进一步对数据重取样方法进行改进,采用表现较好的SMOTE上采样方法和基于改进聚类的下采样相结合的重取样方法对文本数据集合进行处理,取得了较好的分类结果。