论文部分内容阅读
密度估计问题在诸多机器学习与模式识别任务中起着核心作用。核密度估计(Kernel Density Estimation,简称KDE)算法作为当前最有效和应用最广泛的一种非参数密度估计算法,在理论与应用方面都得到了广泛而深入的研究。其主要缺点在于:(1).由于对训练数据的不加区分地密集地使用而导致的二次的算法复杂度;(2).与训练集容量正相关的算法空间复杂度;(3).由于“维数灾难”(Curse of Dimensionality)的存在而导致的多维核密度估计算法的性能降低甚至失效。(4).在小样本训练集条件下,传统核密度估计算法所得估计在一定程度上欠缺光滑性。
随着信息时代的到来和计算机技术(特别是数据采集与存储技术)的飞速发展,海量高维数据大量涌现,如何高效地从这些庞大的数据集中挖掘有用的信息成为摆在研究人员面前亟待解决的问题。核密度估计是很多模式识别与机器学习方法(如判别分析、聚类分析等)和应用(如图象处理、计算机视觉等)的基础,但是传统的KDE算法由于其固有的缺陷(特别是其时间复杂度和空间复杂度),其在具有高维海量数据集的领域中的应用受到了极大的限制。
为了克服核密度估计的以上缺点,本文从以下三个方面进行了研究:(1).对于单元变量核密度估计,为了加快KDE的计算速度,减少内存需求,简化模型的复杂度,提出了一种新型的基于稀疏贝叶斯回归(Sparse Bayesian Regression,简称,SBR)的KDE的稀疏构造算法:SBR-KDE。该算法用一种特殊的设计矩阵(Design Matrix)和经过人工加噪处理过的待估密度函数所对应的累积分布函数的逼近数据作为算法的输入,并通过寻优准则搜寻到最优的窗宽参数,经过对SBR模型的训练,获得了KDE的极为稀疏的表示,并同时保持了与使用所有训练数据的传统算法大致相当的精度,另外由于采用了正则化技术,引入了结构风险最小化准则,从而使得基于小样本训练集上的密度估计的性能获得了较大的改进,即可以得到比使用所有的训练数据的传统核密度估计算法更精确和更光滑的估计。(2).利用独立成分分析(Independent Component Analysis,简称ICA)、数据高斯化(Gaussianization)预处理和密度变换公式,将SBR-KDE算法扩展到多维核密度估计问题,目的是:(a).利用已经获得的单元SBR-KDE算法的稀疏性;(b).回避多维核密度估计问题中难以处理的选取适当准则优化窗宽矩阵的难题;(c).在一定程度上减轻“维数灾难”的影响。(3).为了解决SBR模型的训练时间随训练数据集容量的增大而迅速增长的问题,将训练数据集合进行适当的分解,将每个训练子集分别用于SBR模型的训练,并且引入Boosting过程提高模型的精度,最后将所有模型训练的结果用于核密度估计的计算。
在一元和二元人工数据集上的实验结果表明,该算法与传统的KDE算法相比,在保持了相当的计算精度(多数情况下降低了模型误差)的情况下,将算法执行的时空效率大幅度提高,而且该算法在小样本情况下,得到的密度估计也更为光滑。二元人造数据集上的初步实验结果还表明通过应用独立成分分析和数据高斯化技术得到的算法的多元扩展在一定程度上缓解了“维数灾难”。
通过将较大的训练数据集合进行再次抽样构造相同规模的训练子集,并将每个训练子集用于一个SBR模型的训练,使得模型的训练时间得到较大程度的降低。由于每个训练子集可以代表待估密度函数不同的特性和Boosting过程引入,使得通过这样的一种分解而后综合的方法所得到的密度估计的精度得到了进一步的改进。
最后本文把所提出的算法应用于基于密度的聚类分析中,获得良好的结果。