论文部分内容阅读
支持向量机作为一种基于统计学习理论的新型机器学习方法,较好地解决了非线性、高维数、局部极小点等实际问题,是机器学习领域新的研究热点。文本分类是基于内容的自动信息管理的核心技术。文本向量稀疏性大、维数高、特征之间具有较大的相关性,支持向量机对于特征相关性和稀疏性不敏感,处理高维数问题具有较大的优势,因此,支持向量机在文本分类中具有很大的应用潜力。但是,由于文本分类具有类别和样本数目多等特点,因此,支持向量机用于文本分类时仍有许多尚未完全解决的问题。例如,增量学习、兼类分类、训练和分类速度较慢等。本文主要针对支持向量机在文本分类等实际应用中存在的一些问题进行深入研究,主要工作如下:1.对支持向量机兼类分类算法进行了研究。针对规模较小、类别数较多的兼类样本集,提出了一种基于l-a-r方法的兼类分类算法。该算法用l-a-r方法训练模糊子分类器,对待分类样本,通过子分类器得到其对应的隶属度向量,依据隶属度向量判定其所属类别。针对规模较大、类别数较少的兼类样本集,提出了一种基于l-a-l方法的兼类分类算法。该算法用l-a-l方法训练模糊子分类器,对于待分类样本,通过子分类器得到其对应隶属度矩阵,依据隶属度矩阵每行元素和判定该样本所属类别。针对规模较大、类别数较多的兼类样本集,提出了一种超球支持向量机兼类分类算法。该算法对每一类样本分别训练球超,通过计算待分类样本到各超球球心的距离确定其类别。实验表明,三种算法都能有效地实现兼类分类,扩展了支持向量机的分类能力。2.对支持向量机增量学习算法进行了研究。提出了一种加权类增量学习算法,该算法是对CIL算法的改进,通过加入类权值,解决了因两类训练样本不平衡而造成的小类别分类精度较低的问题。实验证明,与CIL算法相比,该算法在不降低分类速度的前提下,提高了小类别的分类精度。同时,提出了一种新的类增量学习算法,该算法利用超球支持向量机进行分类。增量学习过程中,先对新增类别训练超球,然后对新增样本兼有的历史类别重新训练超球。在很小的样本集,很小的空间代价下实现类增量学习,同时保留了历史训练结果。该算法对单号样本和多标号样本都适用,便于改进和扩充。实验证明,该算法具有较高的训练速度、分类速度和分类精度,增强了支持向量机的学习能力。3.对支持向量机快速分类算法进行了研究。在分析了现有支持向量集缩减方法的基础上,提出了一种支持向量机快速分类算法,该算法是对FCSVM算法的改进。该算法利用二分法选取支持向量子集,然后采用变换的方式,用选取的支持向量子集代替全部支持向量进行分类计算。实验结果表明,该算法在不损失分类精度的前提下,进一步缩减了决策函数中的支持向量,提高了支持向量机的分类速度。4.对模糊支持向量机训练算法进行了研究。针对大规模训练集,提出了一种利用最大违反对选择工作集训练模糊支持向量机的算法。在此基础上,又提出了一种利用目标函数的二阶近似信息选取工作集训练模糊支持向量机的算法。实验表明,两种算法都能实现模糊支持向量机的快速训练。两种算法相比,第二种算法的训练速度更快,训练样本集规模越大,效果越明显。