论文部分内容阅读
孪生支持向量机作为一种有效的分类方法已广泛应用于很多领域,例如模式识别、文本分类、网络入侵检测、疾病诊断等。它的目标是通过求解两个较小规模的二次规划问题来构造两个非平行超平面,使得每个超平面到一类中的样本较近而远离另一类中的样本。目前,人们对孪生支持向量机进行了较深入的研究,并且提出了不同的改进算法,例如模糊孪生支持向量机FTSVM(Fuzzy Twin Support Vector Machine,FTSVM)、孪生有界支持向量机TBSVM(Twin Bounded Support Vector Machine,TBSVM)、最小二乘孪生支持向量机LSTWSVM(Least Squared Twin Support Vector Machine,LSTWSVM)等。为了进一步提高孪生支持向量机的性能,本文研究了基于结构信息的模糊孪生支持向量机与具有参数间隔的结构模糊孪生支持向量机,另外,针对提出的模型,也研究了基于最小二乘法的模型求解方法。具体研究内容如下:1.将样本分布的结构信息以及每个样本的模糊信息引入到孪生支持向量机中,提出了结构模糊孪生支持向量机。在孪生支持向量机中,为了获得两个非平行超平面,该方法只考虑了样本的类间可分性,而忽略了样本类内分布的结构信息,另外,该方法将每个样本对分类面的作用视为相等,而未考虑不同样本对分类决策面的不同作用,从而使得该方法对噪声或异常数据具有较强的敏感性,针对此种情况,基于孪生支持向量机,将数据样本的结构信息以及不同样本的作用引入到孪生支持向量机中,获得了结构模糊孪生支持向量机模型。为了进一步减少训练时间,通过修改模型中的松弛变量项,获得了一种适用于最小二乘法的结构模糊孪生支持向量机模型,并将此模型称之为最小二乘结构模糊孪生支持向量机模型。2.将数据样本的结构信息、模糊信息及参数间隔引入到孪生支持向量机v-TWSVM中,提出了结构模糊孪生参数间隔支持向量机。对于孪生支持向量机及其改进算法,主要考虑了数据集中的噪声是均匀噪声,然而,在实际问题中,噪声却依赖于不同的位置,使得均匀噪声的假设不再成立;此外,孪生支持向量机v-TWSVM还忽略了样本类内的结构信息和不同样本的作用,为此,针对此类问题,将结构信息、不同样本的作用及参数间隔引入到孪生支持向量机v-TWSVM中,提出了结构模糊孪生参数间隔支持向量机模型。另外,通过修改提出的结构模糊孪生参数间隔支持向量机,获得了最小二乘结构模糊孪生参数间隔支持向量机模型。3.针对提出的结构模糊孪生支持向量机模型与结构模糊孪生参数间隔支持向量机模型,以及最小二乘结构模糊孪生支持向量机模型与最小二乘结构模糊孪生参数间隔支持向量机模型,分别利用二次规划法与最小二乘法对提出的模型进行求解,在此基础上,提出了结构模糊孪生支持向量机算法与结构模糊孪生参数间隔支持向量机算法,以及最小二乘结构模糊孪生支持向量机算法与最小二乘结构模糊孪生参数间隔支持向量机算法。同时,针对非线性情况,将核函数引入到提出的模型中,并对其进行求解,获得了用于解决较复杂问题的结构模糊孪生支持向量机算法。4.实验研究了结构模糊孪生支持向量机算法与结构模糊孪生参数间隔支持向量机算法,以及最小二乘结构模糊孪生支持向量机算法与最小二乘结构模糊孪生参数间隔支持向量机算法的性能。通过选取UCI和Statlog数据库中的标准数据集以及人工数据集,利用十重交叉验证方法验证了提出算法的性能,且与典型孪生支持向量机算法进行了实验比较。