基于支持向量机的文本分类算法研究

被引量 : 62次 | 上传用户：down678

【摘要】

：

支持向量机作为一种基于统计学习理论的新型机器学习方法,较好地解决了非线性、高维数、局部极小点等实际问题,是机器学习领域新的研究热点。文本分类是基于内容的自动信息管

【作者】

：

秦玉平

【发表日期】

：

2008年01期

【关键词】

：

支持向量机文本分类兼类分类增量学习超球

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

支持向量机作为一种基于统计学习理论的新型机器学习方法,较好地解决了非线性、高维数、局部极小点等实际问题,是机器学习领域新的研究热点。文本分类是基于内容的自动信息管理的核心技术。文本向量稀疏性大、维数高、特征之间具有较大的相关性,支持向量机对于特征相关性和稀疏性不敏感,处理高维数问题具有较大的优势,因此,支持向量机在文本分类中具有很大的应用潜力。但是,由于文本分类具有类别和样本数目多等特点,因此,支持向量机用于文本分类时仍有许多尚未完全解决的问题。例如,增量学习、兼类分类、训练和分类速度较慢等。本文主要针对支持向量机在文本分类等实际应用中存在的一些问题进行深入研究,主要工作如下:1.对支持向量机兼类分类算法进行了研究。针对规模较小、类别数较多的兼类样本集,提出了一种基于l-a-r方法的兼类分类算法。该算法用l-a-r方法训练模糊子分类器,对待分类样本,通过子分类器得到其对应的隶属度向量,依据隶属度向量判定其所属类别。针对规模较大、类别数较少的兼类样本集,提出了一种基于l-a-l方法的兼类分类算法。该算法用l-a-l方法训练模糊子分类器,对于待分类样本,通过子分类器得到其对应隶属度矩阵,依据隶属度矩阵每行元素和判定该样本所属类别。针对规模较大、类别数较多的兼类样本集,提出了一种超球支持向量机兼类分类算法。该算法对每一类样本分别训练球超,通过计算待分类样本到各超球球心的距离确定其类别。实验表明,三种算法都能有效地实现兼类分类,扩展了支持向量机的分类能力。2.对支持向量机增量学习算法进行了研究。提出了一种加权类增量学习算法,该算法是对CIL算法的改进,通过加入类权值,解决了因两类训练样本不平衡而造成的小类别分类精度较低的问题。实验证明,与CIL算法相比,该算法在不降低分类速度的前提下,提高了小类别的分类精度。同时,提出了一种新的类增量学习算法,该算法利用超球支持向量机进行分类。增量学习过程中,先对新增类别训练超球,然后对新增样本兼有的历史类别重新训练超球。在很小的样本集,很小的空间代价下实现类增量学习,同时保留了历史训练结果。该算法对单号样本和多标号样本都适用,便于改进和扩充。实验证明,该算法具有较高的训练速度、分类速度和分类精度,增强了支持向量机的学习能力。3.对支持向量机快速分类算法进行了研究。在分析了现有支持向量集缩减方法的基础上,提出了一种支持向量机快速分类算法,该算法是对FCSVM算法的改进。该算法利用二分法选取支持向量子集,然后采用变换的方式,用选取的支持向量子集代替全部支持向量进行分类计算。实验结果表明,该算法在不损失分类精度的前提下,进一步缩减了决策函数中的支持向量,提高了支持向量机的分类速度。4.对模糊支持向量机训练算法进行了研究。针对大规模训练集,提出了一种利用最大违反对选择工作集训练模糊支持向量机的算法。在此基础上,又提出了一种利用目标函数的二阶近似信息选取工作集训练模糊支持向量机的算法。实验表明,两种算法都能实现模糊支持向量机的快速训练。两种算法相比,第二种算法的训练速度更快,训练样本集规模越大,效果越明显。

其他文献

基于VMware技术的软件定义的存储方案研究

随着服务器虚拟化技术的广泛应用,服务器提供的存储体系结构却未能同步,不能应对虚拟化应用和新型工作负载过高的状况,云端服务的出现以及新应用的快速开发和部署使终端用户

期刊

虚拟化VMware技术存储定义

武汉市民办高职院校教师绩效考核研究

近年来,我国民办高等职业教育发展迅速,逐渐成长为高等职业教育的重要力量。民办高等院校发展的关键是要建立一支素质优良、结构合理、激励有效、稳定上进的教职工队伍。而要

学位

民办高职院校教师绩效考核关键绩效指标平衡记分卡武汉市

汽车零部件应力发白原因分析及解决

从原材料、模具设计以及注塑工艺方面分析导致聚丙烯(PP)材料成型后发白现象的原因。结果表明:材料配方中加入均聚PP和无规PP可以改善材料受应力时发白情况,模具设计以及注塑

期刊

应力发白聚丙烯车用材料配方模具注塑工艺

基于景观生态安全格局的武汉市绿地系统规划研究

随着经济的发展,我国城市正在经历前所未有的变化:城市人口剧增,城市领地不断向外扩展,城市景观的空间分布不断发生改变等等。这一系列的变化导致了城市自然生态过程和环境受

学位

景观生态安全格局绿地系统规划城市绿地格局优化

5XFAD小鼠模型中年龄相关性的髓鞘改变

背景多层次研究显示AD存在髓鞘损伤,但是否超早期即出现髓鞘损伤一直存在争议。电镜可直观、敏锐地观察髓鞘变化特点,借助之动态观察不同月龄痴呆基因工程转基因5XFAD小鼠的

学位

阿尔茨海默病髓鞘5XFAD小鼠认知

基于虚拟机的软件保护系统研究与设计

软件是一种技术密集型的数字产品,软件的开发需要耗费大量的人力和物力,但软件的复制却相当容易,软件版权的保护一直是一个非常棘手的问题。常见的软件保护方式有序列号保护

学位

软件保护软件加密虚拟机

深化护理教育提高护理本科生临床带教质量的方法探讨

目的深化护理教育,探讨护理本科生带教方法。方法选派有一定资格、高素质及临床经验极丰富的带教教师,要求主管护师以上资格,制订一些切实可行的带教措施,如岗前培训、制定周

期刊

护理教育护理本科生带教方法带教质量

含膳食纤维饼干的加工工艺的研究

对粉丝加工下脚料进行处理,利用其中的膳食纤维制作饼干。采用单因素实验的方法,研究了含膳食纤维饼干生产中各原辅料对饼干面团性能和成品感官质量的影响,确定了最佳工艺。

期刊

膳食纤维饼干粉浆废液

标准光源、目测检验和同色异谱

标准光源、目测检验和同色异谱马志尔（上海商检局）标准光源和目测检验各类商品的质量检验不外乎两个方面，一种是外观检验如色泽、疵点、缺陷、尺寸、美观等，另一种中内在质量检验

期刊

标准光源同色异谱光源色温反射率感官检验三刺激值外观检验

濒海作战引发舰船革命

濒海作战是一种崭新的作战模式,它要求联合特遣部队能够高速通过危机四伏的海岸浅水地带,从而避免敌军利用复杂海况展开“非对称”攻击。

期刊

濒海战斗舰飞行甲板高速双体船美国海军直升机起降水面试验两栖作战

基于支持向量机的文本分类算法研究

其他学术论文