多核分类器性能优化方法研究

论文部分内容阅读

分类器的核化构造了一个特征空间,在这个特征空间中,原本线性不可分的样本更容易被正确分类。特别是多核的引入,使得分类器从多个不同的角度对数据进行刻画。相比单核分类器,多核分类器对异构数据的描述更加全面,对核参数的敏感度更低,因此,更容易得到较好的识别率。但是,核化过程通常是一个从低维空间到高维空间的映射过程,因此,时间和空间复杂度一直是多核分类器两个棘手的问题。本文的研究重点是多核分类器性能优化,旨在尽量不损失分类精确度的同时降低多核分类器的时空复杂度。在文中提出了两种不同的多核优化算法,约简型多经验核分类器(Reduced multiple empirical kernel learning machine, RMEKLM),该算法基于经验核映射,通过对映射函数进行降维达到性能优化的目的；代价敏感的多视图分类器(Cost-sensitive multi-view learning machine, CMVLM),该算法基于隐性核映射,从多分类器组合的角度优化多核分类器的时空复杂度。本文的贡献主要归纳为以下几点：1. RMEKLM将数据集从输入空间映射到由一组标准正交基构成的正交子空间中。相较于原特征空间,该子空间的几何结构直观,降低了映射维度,从而降低了时空复杂度。另外,RMEKLM使用高斯消元法提取原特征空间的一组基,该方法能最大限度地保留原特征空间的信息,并且收敛速度快。2. CMVLM提出了一种新的代价——视图代价(即核空间代价),与现有的类依赖代价和样本依赖代价不同,这个代价是视图的计算代价。通过将每个视图的代价与其判别散度结合,CMVLM可以度量它们对最终组合分类器的贡献。最后只保留代价较低,判别散度较大的视图进行训练和测试,从而有效地降低了时空复杂度。另外,这个方法可以被广泛应用到多种多核模型中,而不局限于本文所使用的多核模型。在实验中,本文将这两个算法与几种较成熟的多核和单核分类器进行了分类精度和时空复杂度的对比,验证了所提算法的有效性和高效性。

其他学术论文