论文部分内容阅读
随着国际互联网飞速发展,各种电子文本数据的数量激增,如何快速有效地获取、管理和使用这些文本数据,已经成为信息系统科学迫切需要解决的重要问题。近十年来,作为解决这些问题的基本工具之一,基于文本内容的自动文本分类技术得到了空前的发展,引起了人们的普遍关注。文本自动分类是指由计算机自动判别文本类别的过程,文本分类问题具有文本向量稀疏性大、维数高、特征之间具有较大的相关性的特点。支持向量机对于特征相关性和稀疏性不敏感,且在处理高维数问题时较其它方法具有较大优势,因此,支持向量机非常适合于文本分类问题,在文本分类中具有很大的应用潜力。同时,文本分类也给支持向量机提出了许多富有挑战性的课题,目前应用支持向量进行文本分类主要存在着训练分类模型速度较慢等显著的缺陷。本文针对支持向量进行文本分类时存在着的训练分类模型速度较慢的缺陷,尝试对支持向量机的训练样本进行某种预处理,以便尽量克服支持向量机的此类缺陷,更好地应用于文本分类。已有的研究表明支持向量机的建立只取决于训练样本中的支持向量而与非支持向量无关,因此本文从降低文本分类过程中文本向量数目的角度出发,削减文本向量集中的非支持向量来加快训练支持向量机分类的速度。本文采用了一种基于密度概念的k-均值聚类算法,充分利用训练文本类别信息已知的条件,以两两聚类的方式在训练样本预处理阶段尽可能地削减训练样本中的非支持向量保留支持向量,使得最终参与训练支持向量机的样本数大大减少,从而生成了一个既具与传统的支持向量机分类方法分类精度相当,又在时间复杂度方面有较大改进的中文文本分类模型。同时本文对于k-均值聚类算法存在的某些缺陷进行了针对性的改进,通过对参与聚类的数据进行了规范化的处理,使参与聚类数据由无规则分布转变为团簇状分布,从而便于聚类处理,引入密度来确定聚类的初始中心,引入纯度度量来确定合适的聚类中心的密度半径,从而最终达到最有效削减支持向量机训练样本的目的。