论文部分内容阅读
自从二十世纪九十年代以来,核方法已经被广泛应用于模式识别与机器学习领域。其优势在于核方法允许研究者在原始数据对应的高维特征空间使用线性方法来分析和解决问题,不需要直接对数据进行映射。另一方面,一般的非线性方法映射的维数往往过高不受控制,而核方法能有效地规避“维数灾难”问题。但是应当指出,核方法在对待测样本进行特征抽取时,需要计算其与所有训练样本间的核函数,因此训练样本的个数直接制约了核方法的特征抽取效率,在实际的大样本集分类应用中,该方法的特征抽取率将非常低,甚至难以应用。因此在保证识别率的前提下,寻求提高核方法的特征抽取效率的工作是非常有现实意义的。本文通过从训练样本集中选择出一部分有代表性的样本,本文称之为关键样本的思想,来对多种核方法进行改造,构造出其稀疏核模型,进而达到提高特征抽取效率的目的。在稀疏核模型中,只需计算待测样本与关键样本间的核函数,因此稀疏核模型对应着极高的特征抽取效率,这也是本文的最重要贡献。在关键样本选择方法上,本文首先以一种形式简单并且被广泛使用的基于核的最小二乘法(KMSE)为例,找出其对应的神经网络模型,以特征抽取结果的逼近为目标,根据网络权值对不同输入分量的放大作用来确定一部分训练样本,即关键样本。并推导出了稀疏核模型的判别向量可以表示为这部分关键样本在特征空间中的线性组合,这个推论对其他核方法的稀疏模型构建具有指导作用。KMSE虽然属于非线性分析方法,但其实质上是对样本在特征空间中使用线性方法进行回归。回归分析方法能够对各自变量对因变量贡献的显著性进行检验,本文首次尝试了将回归分析方法用于对KMSE稀疏模型的构建。除了KMSE方法,其他核方法,比如KFDA,KPCA,同样面临特征抽取效率低下的问题。本文从特征空间样本的相关度与距离的角度,设计出了一种普遍适用的关键样本选择方法。根据推论,稀疏核模型的判别向量可以表示为这部分关键样本在特征空间中的线性组合,分别推导出了KFDA,KPCA的稀疏模型。在基准数据集上采用以上稀疏核方法进行实验,本文所提出的几种的方法能够在基本不损失识别率的前提下,显著提高核方法的特征抽取效率。