基于支持向量机与聚类算法的中文文本分类研究

来源 :中南林业科技大学 | 被引量 : 0次 | 上传用户:kangyh123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着国际互联网飞速发展,各种电子文本数据的数量激增,如何快速有效地获取、管理和使用这些文本数据,已经成为信息系统科学迫切需要解决的重要问题。近十年来,作为解决这些问题的基本工具之一,基于文本内容的自动文本分类技术得到了空前的发展,引起了人们的普遍关注。文本自动分类是指由计算机自动判别文本类别的过程,文本分类问题具有文本向量稀疏性大、维数高、特征之间具有较大的相关性的特点。支持向量机对于特征相关性和稀疏性不敏感,且在处理高维数问题时较其它方法具有较大优势,因此,支持向量机非常适合于文本分类问题,在文本分类中具有很大的应用潜力。同时,文本分类也给支持向量机提出了许多富有挑战性的课题,目前应用支持向量进行文本分类主要存在着训练分类模型速度较慢等显著的缺陷。本文针对支持向量进行文本分类时存在着的训练分类模型速度较慢的缺陷,尝试对支持向量机的训练样本进行某种预处理,以便尽量克服支持向量机的此类缺陷,更好地应用于文本分类。已有的研究表明支持向量机的建立只取决于训练样本中的支持向量而与非支持向量无关,因此本文从降低文本分类过程中文本向量数目的角度出发,削减文本向量集中的非支持向量来加快训练支持向量机分类的速度。本文采用了一种基于密度概念的k-均值聚类算法,充分利用训练文本类别信息已知的条件,以两两聚类的方式在训练样本预处理阶段尽可能地削减训练样本中的非支持向量保留支持向量,使得最终参与训练支持向量机的样本数大大减少,从而生成了一个既具与传统的支持向量机分类方法分类精度相当,又在时间复杂度方面有较大改进的中文文本分类模型。同时本文对于k-均值聚类算法存在的某些缺陷进行了针对性的改进,通过对参与聚类的数据进行了规范化的处理,使参与聚类数据由无规则分布转变为团簇状分布,从而便于聚类处理,引入密度来确定聚类的初始中心,引入纯度度量来确定合适的聚类中心的密度半径,从而最终达到最有效削减支持向量机训练样本的目的。
其他文献
嵌入式计算、网络、传感器和无线通信四大技术孕育了无线传感器网络。无线传感器网络通常包含大量的自组织成多跳无线网络的分布式传感节点,是一种全新的信息获取和处理、传
数据流的出现引发了人们对数据流处理技术的广泛研究。数据流频繁模式挖掘技术就是其中的一种,它在商务决策、知识库的应用中起着重要的作用。但是由于数据流本身动态多变、
服务发现协议(Service Discovery Protocol,SDP)是解决终端设备如何发现和获取网络中服务的协议。该协议让用户和应用程序,在没有预先配置的情况下,就可以自动定位服务,使用
计算机视觉和机器学习技术被广泛应用于数据挖掘、信息安全、遥感图像处理、生物信息学、智能交通、智能安防和医疗服务等领域。作为计算机视觉领域中的重要分支之一,运动目
生物体特征识别技术使用了人体本身所固有的生物特征,与传统的身份识别方法完全不同,具有更高的安全性、可靠性、和有效性,越来越受到人们的重视。人脸自动识别技术作为生物特征
随着计算机处理对象越来越复杂,所要求软件的功能就相应地要越来越强,软件的质量和可靠性尤为重要,软件测试是其重要保障。而软件测试是软件开发过程中的一个至关重要的环节,
非负矩阵分解是一种新兴的能够保持数据非负性的非监督机器学习技术。传统的非负矩阵分解算法实现非负约束主要有两种方法。第一种方法只在迭代过程中使用矩阵乘法、矩阵加法
入侵检测作为一种主动的安全防护手段,为主机和网络提供了动态的安全保障。它不仅检测来自外部的入侵行为,同时也对内部的未授权活动进行监督。利用网络协议的高度规则性,采
由驾驶员疲劳引起的车祸在机动车事故中占有很大比例,所以当驾驶员疲劳时给予警告,可以有效的减少交通事故的发生。驾驶员在车辆行驶过程中是否疲劳,可以由眼睛的状态反映出
学位