基于支持向量数据描述的异常检测与核特征提取方法研究

来源 :国防科技大学 | 被引量 : 3次 | 上传用户:happyyoung
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
异常检测旨在准确地区分目标类(或正类)样本与来自非目标类(或负类)的异常样本。通常假定只有目标类的训练样本是可获得的,而缺少具有统计代表性的异常样本(如故障诊断中,难以获取机器在所有异常运行状态下的测量数据)。作为一种新的单类分类器,支持向量数据描述(Support Vector Data Description,SVDD)通过最小体积超球来模拟目标数据的边界。类似支持向量机,该边界只由少数训练样本(即支持向量)决定;通过将一般的内积用核函数取代,可以得到更灵活的数据描述。鉴于SVDD只模拟数据的边界,其对目标类的采样质量依赖较低。在目标类密度分布未知的情况下,SVDD仍可准确估计其在特征空间中的分布区域。尽管SVDD已广泛应用于异常检测,然而传统SVDD可能不能得到目标描述的最优解。其中一个主要问题即敏感于训练样本中的奇异样本;再则球形描述相对保守,尤其在应用多项式核函数的情况下。以上问题均影响SVDD异常检测的性能。核特征提取旨在去除数据中的高阶相关性,以实现对复杂数据集的降维,并揭示数据中隐含的简单结构。作为核方法的另一成功应用,核主分量分析(Kernel Principal Component Analysis,KPCA)将数据非线性地嵌入到高维特征空间中,通过不同的核函数可有效地探索数据的高阶特征。与其它非线性特征提取技术相比,KPCA的优势在于它只需求解一个特征值问题,不涉及任何非线性优化。从另一角度看,作为一种完全非参数化的方法,亦不利于传统算法的改进。实际应用中,KPCA有两个主要不足之处。其一,缺乏稀疏性与实现一个含有丰富信息的简明表示的初衷相悖,同时也导致了运算与存储问题。再则,缺乏稳健性,计算得到的特征向量将受异常样本的严重影响而向其倾斜。在国家自然科学基金项目的资助下,本论文立足于支持向量数据描述,旨在解决前述异常检测及核特征提取中存在的问题。首先介绍了异常检测及核特征提取的背景,并概述了SVDD的研究现状,随后介绍了本论文的主要工作。第二章介绍了支持向量数据描述的基本理论,讨论了核函数的选择问题。针对特征空间中数据在各特征方向上分布不均匀的问题,给出了一种适用于SVDD的数据白化预处理方法。此外,我们阐明了SVDD与单类支持向量机的等价关系,并探讨了利用正样本上的错误估计来确定模型中自由参数的可能性。第三章探讨了SVDD的稳健性问题。传统SVDD对受污染的数据(如目标类数据中包含异常样本或标记错误的样本)将得到不可靠的描述边界。在SVDD训练过程中给每个样本赋予不同的权值,可以降低其对奇异样本的敏感性。通过比较几种不同的权重计算方案,给出了一种基于Stahel-Donoho(SD)奇异性加权的SVDD,并推导了特征空间中SD奇异性的计算方法。最后,针对多元数据异常检测的可视化问题,给出了一种用于SVDD的诊断图,以帮助SVDD使用者对其模型进行评估。第四章提出了一种新的数据描述方法—椭球数据描述(Ellipsoidal Data Description,ELPDD)。由于SVDD只通过球心和半径定义数据分布,对一般输入维数具有相关性的多元数据得到的描述边界可能不够紧致。通过在特征空间中构造包含目标类样本的最小体积闭椭球,可以考虑到数据各特征的方差及特征间的协方差,从而更好地刻画非均匀的数据分布。针对异常检测,我们给出了相应的判决函数,并详细讨论了其模型选择问题。最后,分析了算法的稳定性,推导了异常检测的风险边界。第五章研究了核主分量分析的稀疏性与稳健性。受支持向量机解的稀疏特性启发,我们探索了如何将SVM的这一特性引入KPCA中。PCA的几何解释,即估计数据的最佳拟合椭球,为我们提供了一种将KPCA参数化的方法。而相应的最优椭球即属一种SVM的变种,亦即第四章提出的椭球数据描述。由此,每一主分量展开式具备了稀疏性,即只有作为支持向量的样本所对应的系数非零。针对KPCA的稳健性,我们提出了通过计算一种稳健的距离,以鉴别出未被污染的样本子集,从而使随后的算法尽量避免奇异样本的影响。此外,我们给出了一种基于KPCA的异常图,以显示并对异常样本进行分类。以上研究进一步完善了基于支持向量的数据描述方法及理论,并探讨了其在异常检测及核特征提取中的应用。特别是椭球数据描述,对数据挖掘、稳健统计学等其它领域具有重要意义。
其他文献
动态高压微射流技术(Dynamic high-pressure microfluidization, DHPM)是一种新兴的非热加工技术,可以对物料进行高速剪切、高频振荡、瞬时压力降、膨爆和气穴等一系列作用,
21世纪被称为“海洋的世纪”,随着各个国家海洋意识的纷纷觉醒,对于海洋的开发和利用已经成为国际关注的焦点。世界各国都不同程度地提高对海洋的重视,越来越多的发达国家和
必须清醒地认识到,加快推进教育信息化还面临诸多的困难和挑战。对教育信息化重要作用的认识还有待深化和提高;加快推进教育信息化发展的政策环境和体制机制尚未形成;基础设施有
喹啉及烷基化喹啉统称为喹啉类化合物,是一类极为重要的杂环化合物,经常被用作制备药物、除草剂、杀菌剂、腐蚀抑制剂以及其他许多重要的精细化学品的起始原料,同时也是经常
翻译在企业生产及文化建设中,有着举足轻重的作用。关于企业在文化建设中的作用,我们应高度重视。并针对翻译工作在企业生产中出现的问题,提出了相关解决办法,希望能够对企业文化
基于双吲哚马来酰亚胺化合物和硫脲化合物的结构及多样的生物活性,通过1-氨基-3,4-二(吲哚-3-基)-3-吡咯啉-2,5-二酮与异硫氰酸酯反应,合成了17种新的3,4-二(吲哚-3-基)-2,5-
建设法治政府要求规范和约束政府权力,保障人民权益,追求人民幸福。显然,法治政府建设绩效与公众幸福感存在内在联系,探究两者关系具有现实意义。基于独立第三方立场,构建法
纳米改性技术可提高传统材料导热性能和绝缘性能而被广泛应用。植物绝缘油作为环保新型液体电介质,已广泛应用在国内配电变压器中。研究纳米植物绝缘油对推广植物绝缘油变压
陆地景观中的集合群落通常是指多个局域尺度上的群落通过其物种的扩散而连接一起的,其生境并不相连的群落集合。然而对于河流生态系统来说,由于河网结构具有连通性,因此单个
老龄化随着老年人口的飞速增加而加剧,如何在我国目前的国情下发展养老服务业成为需要关注的重要问题。本文结合前人对老龄产业发展的研究,借鉴国外经验,提出商业银行支持养