论文部分内容阅读
孪生支持向量机(Twin Support Vector Machines,TWSVM)是在2007年提出的,在形式上类似于经典的支持向量机(Support Vector Machines,SVM),时间消耗上却缩减到了SVM的1/4。它的思想来源于近似支持向量机(Proximal Support Vector Machines,PSVM)和基于广义特征值近似支持向量机(Proximal SVM based on Generalized Eigenvalues,GEPSVM)。与SVM一样,TWSVM也具有坚实的理论基础,并且具有推广能力强等优点。自从TWSVM提出以来,就因为其优越的性能而成为了机器学习领域的一个研究热点。学者们也对其提出了各种优化和改进。而TWSVM的标准形式也只适用于有监督学习的情况,而现实生活中产生的大量数据都是无标签的,在有监督学习中仅采用有限的有类别标签数据时,很难得到具有强泛化性能的学习器,因此TWSVM并不能很好地利用这些无标签数据来提高自身的学习能力。面对少量的有标签数据和大量的无标签数据,半监督学习方法可以帮助TWSVM提高解决这类问题的分类性能。将半监督学习思想引入TWSVM中,使两者相结合,可以改善标准TWSVM的缺点,并获得更好的分类效果,而这个问题的研究也有其重要的意义,本文的主要研究内容如下:首先,本文在标准TWSVM的基本形式上,即其优化函数中,加入了无标签数据,从而提出了半监督孪生支持向量机的最原始模型。原本的标准TWSVM中,都是针对有标签数据而言,整个表达式中也必须是利用有标签数据。而在经过对标准TWSVM的表达式进行一些推导改造之后,能够将无标签数据也在表达式中体现出来,这意味着我们可以在求解的过程中就利用到无标签数据,而这也可以认为是半监督孪生支持向量机的原始模型。其次,本文在考虑到半监督孪生支持向量机的原始模型求解复杂后,利用流形正则化框架而提出了基于全局保持的拉普拉斯半监督孪生支持向量机(Laplacian Global Preserving Twin Support Vector Machine,LapGTSVM)。流形正则化框架一直以来作为研究热点能够被有效地利用到半监督学习中,拉普拉斯孪生支持向量机(Laplacian Twin Support Vector Machines,LapTSVM)便是学者利用流形正则化框架最早提出的一种能将孪生支持向量机运用到半监督学习中的机器学习方法。而本文建立的LapGTSVM则是在Lap TSVM中嵌入数据样本的全局结构信息,使得所构造出来的分类器能够充分考虑数据样本的全局与局部信息,在性能和稳定性方面都有很大的提升。最后,采用半监督核中Bagged聚类核这一方法,将孪生支持向量机以另外一种方式来充分利用无标签数据,而提出了基于Bagged聚类核的半监督孪生支持向量机(TWSVM Based on Bagged cluster kernel for semi-supervised,Bagged-TWSVM)。该方法中,其主要思想就是利用半监督核中的聚类核,该核能够对样本之间的相似度信息进行过重新调整,使得位于同一聚类样本之间的相似度增大,而被聚到不同类中的样本,他们之间的相似度缩小。Bagged-TWSVM能够充分利用无标签数据的信息,进而提高分类精度。