论文部分内容阅读
21世纪以来信息技术的迅速发展,使互联网逐渐地成为一个巨大的信息体。面对海量的数据,我们如何对这些数据进行管理与组织,并且高速准确的从中找出有价值的内容成为现在信息科学技术领域的一大难题,文本分类技术是解决这些难题的主要技术之一,存在很大实用价值,得到广泛专注。它的实现包括了多种技术,特征选择是文本分类中一个重点技术,它对于提高运算速度,减少运算复杂性和提升分类效率有重要意义,本文主要对文本分类中的特征选择算法进行研究。特征选择算法主要分为过滤型方法(Filter)和包装型(Wrapper)方法两类。Filter方法通用性强,运行时间复杂度低,但由于独立于分类学习算法,准确率低。Wrapper方法分类准确率高,但计算代价较大,通用性差。常常将两者结合使用,优劣势相互补。常用IG,MI,ECE和CHI这几种Filter型方法进行特征选择,再结合Wrapper方法对其进行验证。这些方法都是先构造一个评估函数,用其对原始特征集合中每一个特征进行计算,并对权值的大小进行排序,选取前n个权值大的特征。在中文文本分类中,特征空间的维数远大于英文文本的特征空间,所以大规模的统计计算将会花费巨大的计算成本。本文提出一种新的特征选择算法,该方法不需要构造评估函数,利用k-means聚类的原理来进行特征选择,大大降低特征选择时间。采用根据最大最小原则改进的k-means算法,解决初始化样本的随机选择问题,再结合Wrapper方法用分类器性能对选择的特征子集进行评价。在实验中研究讨论k-means方法中两种距离的计算方法,即欧氏距离和余弦距离计算文本相似度对算法的影响,结果表明用k-means算法原理进行特征选择时余弦距离更适合应用于文本相似度的计算。同时研究讨论不同语料库上k-means特征选择方法中簇心k的取值和每个簇心中选择的特征数v的的最佳取值,由于中英文语言的差异性,k与v的最佳取值与所选取的语料库的种类和规模有很大关系。进一步在文本分类实验中研究新方法和IG,MI,ECE这几种常用特征选择方法与文档频率算法组合使用后的特征选择的效果,结合Wrapper方法使用BP网络、贝叶斯和SVM算法训练分类器,对分类结果的性能进行对比。实验结果可看出k-means特征选择算法无论是中文文本还是英文文本中都是一种行之有效的特征选择方法。本论文运用Java语言实现文本分类系统,设计了算法验证软件,在此基础上对所用方法的有效性和可行性进行验证。该系统主要分为三个模块:文本的预处理、建立分类器模型和模型评估、未知文本分类。