论文部分内容阅读
当今时代是一个信息爆炸的时代,互联网发展非常迅速,网络上的信息每天都在增加,为了要从海量的信息中快速找到自己需要的资源,需要对信息进行分类,因此产生了文本分类技术。本文的应用背景是文本信息处理,对文本信息的分类方法从理论和应用两个方面进行了比较深入的研究。在介绍文本分类相关知识的基础上,重点讲解了两类分类和多类分类支持向量机的构造方法,分析了各自的优缺点,然后分别提出了改进的两类分类支持向量机和改进的多类分类支持向量机,并通过实验证明它在文本分类中效果很好。本文主要研究了下述几点的内容:(1)介绍文本分类的相关技术,主要的内容包括:文本预处理、特征选取和文本表示。本文中的特征值权重的计算方法是TF-IDF公式,文本表示的方法是使用向量空间模型(Vector Space Model,VSM)。介绍完基础知识后,还介绍了几种常用的文本分类方法:朴素贝叶斯、类中心向量、K近邻和支持向量机,分析了这些方法在分类时的优缺点。(2)介绍了支持向量机用于分类时的基本原理,分析和说明了支持向量机在机器学习中具有的优势。然后介绍了在分类时涉及到的技术:如为解决非线性问题时采取的向量空间映射的技术,为解决维数灾难问题采取核函数的技术等。最后重点介绍了常见的多类支持向量机:一对一、一对多,并分析比较了这些方法的优缺点。(3)本文的核心部分提出了一种改进的两类分类支持向量机。改进的算法提出了一种两阶段信息模式提取方法,目的是在构建分类器前先提取出包含支持向量的边界向量集合,用这个边界向量集来训练支持向量机既可以减少支持向量机的训练时间又可以保持住分类精度。改进算法的第一阶段是基于引导抽样的数据清理,第二阶段是基于信息熵最大化的信息模式提取。然后在四个大型数据集上进行实验,验证了该算法在减少训练数据和计算成本上具有有效性。(4)本文的另外一个核心部分提出了一种改进的多类分类支持向量机。改进算法的思想是对每个一对多分类模型,选取正类样本聚类的中心点为参考点,然后提取出包含支持向量的边界向量集合来训练支持向量机,来达到减少训练速度的目的。聚类的目的是提高样本选择的效率,而不是像以前的方法那样直接从聚类里选择样本。然后在数据集上进行实验,通过实验说明提出的方法与具有竞争力的算法相比选择更少的样本,在大多数数据集上保持了较高的分类精度。