核密度估计稀疏构造算法研究及应用

来源 :华南理工大学 | 被引量 : 0次 | 上传用户：zjcmlyj

【摘要】

：

密度估计问题在诸多机器学习与模式识别任务中起着核心作用。核密度估计（Kernel Density Estimation，简称KDE）算法作为当前最有效和应用最广泛的一种非参数密度估计算法，在理论与

【作者】

：

尹训福

【机构】

：

华南理工大学

【出处】

：

华南理工大学

【发表日期】

：

2009年期

【关键词】

：

核密度估计核密度估计稀疏构造算法稀疏构造算法机器学习机器学习模式识别模式识别算法复杂度算法复杂度聚类分析聚类分析

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

密度估计问题在诸多机器学习与模式识别任务中起着核心作用。核密度估计（Kernel Density Estimation，简称KDE）算法作为当前最有效和应用最广泛的一种非参数密度估计算法，在理论与应用方面都得到了广泛而深入的研究。其主要缺点在于：（1）．由于对训练数据的不加区分地密集地使用而导致的二次的算法复杂度；（2）．与训练集容量正相关的算法空间复杂度；（3）．由于“维数灾难”（Curse of Dimensionality）的存在而导致的多维核密度估计算法的性能降低甚至失效。（4）．在小样本训练集条件下，传统核密度估计算法所得估计在一定程度上欠缺光滑性。　　随着信息时代的到来和计算机技术（特别是数据采集与存储技术）的飞速发展，海量高维数据大量涌现，如何高效地从这些庞大的数据集中挖掘有用的信息成为摆在研究人员面前亟待解决的问题。核密度估计是很多模式识别与机器学习方法（如判别分析、聚类分析等）和应用（如图象处理、计算机视觉等）的基础，但是传统的KDE算法由于其固有的缺陷（特别是其时间复杂度和空间复杂度），其在具有高维海量数据集的领域中的应用受到了极大的限制。　　为了克服核密度估计的以上缺点，本文从以下三个方面进行了研究：（1）．对于单元变量核密度估计，为了加快KDE的计算速度，减少内存需求，简化模型的复杂度，提出了一种新型的基于稀疏贝叶斯回归（Sparse Bayesian Regression，简称，SBR）的KDE的稀疏构造算法：SBR-KDE。该算法用一种特殊的设计矩阵（Design Matrix）和经过人工加噪处理过的待估密度函数所对应的累积分布函数的逼近数据作为算法的输入，并通过寻优准则搜寻到最优的窗宽参数，经过对SBR模型的训练，获得了KDE的极为稀疏的表示，并同时保持了与使用所有训练数据的传统算法大致相当的精度，另外由于采用了正则化技术，引入了结构风险最小化准则，从而使得基于小样本训练集上的密度估计的性能获得了较大的改进，即可以得到比使用所有的训练数据的传统核密度估计算法更精确和更光滑的估计。（2）．利用独立成分分析（Independent Component Analysis，简称ICA）、数据高斯化（Gaussianization）预处理和密度变换公式，将SBR-KDE算法扩展到多维核密度估计问题，目的是：（a）．利用已经获得的单元SBR-KDE算法的稀疏性；（b）．回避多维核密度估计问题中难以处理的选取适当准则优化窗宽矩阵的难题；（c）．在一定程度上减轻“维数灾难”的影响。（3）．为了解决SBR模型的训练时间随训练数据集容量的增大而迅速增长的问题，将训练数据集合进行适当的分解，将每个训练子集分别用于SBR模型的训练，并且引入Boosting过程提高模型的精度，最后将所有模型训练的结果用于核密度估计的计算。　　在一元和二元人工数据集上的实验结果表明，该算法与传统的KDE算法相比，在保持了相当的计算精度（多数情况下降低了模型误差）的情况下，将算法执行的时空效率大幅度提高，而且该算法在小样本情况下，得到的密度估计也更为光滑。二元人造数据集上的初步实验结果还表明通过应用独立成分分析和数据高斯化技术得到的算法的多元扩展在一定程度上缓解了“维数灾难”。　　通过将较大的训练数据集合进行再次抽样构造相同规模的训练子集，并将每个训练子集用于一个SBR模型的训练，使得模型的训练时间得到较大程度的降低。由于每个训练子集可以代表待估密度函数不同的特性和Boosting过程引入，使得通过这样的一种分解而后综合的方法所得到的密度估计的精度得到了进一步的改进。　　最后本文把所提出的算法应用于基于密度的聚类分析中，获得良好的结果。

其他文献

不确定的单种/多种移动物体连续RNN查询

近年来,随着无线网络通信技术和定位技术(如GPS)的发展,大量具有定位功能的无线设备(例如移动电话、车载GPS等)得以普及。当这些设备被部署到一些运动着的对象上时,人们便可

学位

不确定移动对象单种多种连续反向最近邻

电力系统网络安全分区及管理平台的研究与实现

随着通信技术和网络技术的发展,接入电力企业网络的系统越来越多,调度中心、电厂、变电站、用户等之间进行的数据交换也愈加频繁,这对电力监控系统和数据网络的安全性、可靠

学位

安全分区网络管理平台电力监控系统

Web社区发现算法的研究与实现

Web是一个巨大的信息资源库,不仅内容复杂、而且形式各异。根据查询主题需要发现Web上聚集在一起的社区,使用户很快地从互联网上提取所需知识,即为Web社区挖掘。Web社区发现

学位

Web社区最大流社区发现HITS种子网页

基于项目邻接表与事务树的频繁项集挖掘算法

数据挖掘技术是解决数据丰富而知识贫乏的有效途径,是信息科学领域的前沿研究课题之一,已被公认为是数据库研究中一个极富应用前景的领域。在众多的数据挖掘算法中,挖掘关联

学位

关联规则频繁项集最大频繁项集项目邻接表事务树参考置信度

基于SVM和PSO的烧结工况预报方法的研究与实现

在利用回转窑设备生产氧化铝的过程中,回转窑烧结工况的准确预报决定了氧化铝产品的质量和回转窑设备的安全。目前,回转窑烧结工况的预报方法主要是“人工看火”,但是,“人工

学位

烧结工况图像处理模式识别支持向量机粒子群算法参数选择

核密度估计稀疏构造算法研究及应用

其他学术论文