论文部分内容阅读
降维算法是机器学习领域极其重要的研究内容,它决定着整个机器学习框架中最重要的环节之一——样本的特征表示的好坏。一个好的特征表示,能够大幅提高模型的运行效率,降低存储开销,提升算法的学习性能,降低算法对于参数的敏感度以及增加数据的可解释性。而随着大数据时代的来临,海量数据被不断积累,特征的维度飞速升高,此类算法的重要程度也与日俱增,同时要求也越来越高。其中,因为数据总量的不断膨胀,样本标定所需成本不断提升,无监督降维算法需求强劲。另外,随着数据规模的不断扩大,许多传统的降维算法受到运算和存储开销的影响,在新环境下的适用性受到了极大的挑战。本文为了解决以上两方面的问题,分别提出了一套无监督特征选择框架以及有监督的特征变换框架。此外,本文还将降维算法应用到人脸检测当中,实现了算法的一种实践应用。具体工作可以概括为以下三个方面:(1)提出了一套名为基于谱聚类的全局与局部结构保存的无监督特征选择框架基于同时保存数据的全局相似度信息以及局部几何结构这一理念,我们提出了一套无监督的特征选择框架。其中,全局信息的保存通过引入谱聚类算法,自动的抽取数据中的聚类信息实现;而局部几何结构则通过流形学习算法得以保存。为了求解包含上述信息的优化问题,我们提出了一种收敛的迭代式优化算法。因为目标函数中数据局部几何结构的保存可以根据数据需求采用不同的流形学习算法,本文所提框架具有很强的灵活性和适应能力。大量实验验证了本文提出的两种实例化算法的有效性。(2)提出了一种基于选择的随机傅里叶有监督特征变换算法与传统特征变换算法数据驱动的本质维生成方法不同,该算法通过随机傅里叶映射快速的生成较大数目的待选本征维度,再利用特征选择的方法剔除掉随机特征中冗余和无关的部分,从而达到特征变换的目的。与以往的特征降维算法相比,该算法能够以更快的速度以及更小的运算开销保存原始数据信息并降低数据维度;同时,由于采用了随机傅里叶映射这一高斯核的线性近似作为新特征的生成方式,新样本空间中的内积具有同高斯核空间中内积近似的性质,从而大大提高了原始数据的线性可分性;此外,该算法创新性地提出用特征选择算法进行特征变换的思路,在两种原本独立研究、互不相关的降维算法之间构建了一座桥梁,使得所有的特征选择算法,不论是有监督还是无监督算法,都可以根据该思路用于进行特征变换。经过在30个标准数据库上的实验验证,本文算法不论在运算时间还是分类、回归的准确度上都展现出了优于传统特征变换算法的表现。(3)提出了一种改进的级联人脸检测算法该算法以本文中提出的多块局部梯度模式为特征表示,结合Adaboost算法和极限学习机共同构造了一种强级联人脸检测器。多块局部梯度模式是局部梯度模式的一种扩展,相比于原特征而言,该特征不但继承了前者对于全局和局部灰度变化的鲁棒性,同时还具有对于噪声更好地健壮性以及对于图像结构更好的描述能力。而将ELM和Adaboost算法结合可以很好的解决Adaboost算法在分类器训练后期耗时的问题。所提算法在自建数据库以及经典的CMU+MIT人脸库上取得了较高的检测精度。