论文部分内容阅读
随着网络技术的飞速发展,文本信息量成几何级数增长,人们可获得的网络信息资源越来越多。面对海量信息,人们对快速、准确且全面获取信息的渴望与信息的杂乱无序、各类数据爆发式的增长产生了矛盾。而文本分类作为处理和组织大量文本数据的关键技术,可在较大程度上解决信息杂乱问题,对于信息的高效管理和有效利用都具有极其现实的意义,并已成为数据挖掘领域中一个重要的研究方向。本文在分析和总结文本分类中文本预处理、特征选择、文本表示模型、分类方法和分类性能评价的基础上,对特征选择、分类方法进行了深入研究。本文的主要研究工作如下:(1)针对文本分类中初始特征空间维数过高、初始特征集大量冗余,从而导致分类精度的下降的问题,提出了一种基于模拟退火机制的蜂群优化特征选择算法,对初始特征集进行有效降维从而达到提高分类精度的效果。该方法中,以蜂群算法流程为主体,把模拟退火机制引入其中,选择合适的蜂群数量和温度下降函数,并通过实验与与卡方统计、信息增益和互信息等算法进行对比,从而证明该特征选择方法对于提高文本分类性能是较为有效的。(2)针对传统KNN算法在处理大数据集时的不足,本文提出一种基于聚类去噪及密度裁剪的改进KNN算法。该算法通过聚类手段进行去噪处理,并且通过加快K近邻的搜索速度提高KNN算法的分类效率,同时保持KNN算法的分类精度。通过实验证明,该算法能够有效的提高KNN算法在处理大数据集时的分类效率,并且很好的保持了KNN算法的分类精度,具有良好的分类性能。本文通过对文本分类系统中的特征选择方法以及分类方法两个方面分别进行研究和改进,从不同方面提高了文本分类的分类性能。