论文部分内容阅读
近年来,数据挖掘不断引起人们的关注,从海量数据中挖掘出潜在的、有价值的信息逐渐成为一项重要且具有挑战性的工作。相比于普通点,数据集中的离群点通常包含了更多的信息。所以,挖掘与大多数数据表现不一致的离群数据点成为了数据挖掘的一个重要分支,同时该项技术也被广泛应用于各个领域——系统入侵检测、灾害预测、信用欺诈检测等。
然而,在目前这个信息爆炸的时代,研究人员面临的问题不仅仅是数据量的庞大,数据本身的复杂度也迅速增加。面对包含了成百上千属性的高维数据,基于传统距离度量的离群检测算法难以取得令人满意的效果。因此,本文提出一种基于稀疏编码和邻域熵的离群点检测算法SNOD(Sparse codingand Neighborhood entropy based Outlier Detection),以克服传统欧式空间的高维离群度量失效问题。本文主要研究内容如下:
1)研究现有的高维离群点检测算法以及基于传统欧式距离的检测算法,包括基于子空间的算法、孤立森林算法以及局部离群因子算法等。分析这些算法在面对维度变化时的性能差异,总结维度骤增时所能检测到的离群点变化规律。
2)结合稀疏编码思想,对数据点的稀疏表示进行观察,发现普通点和离群点的稀疏表示对字典中一些特殊原子的使用有着显著差异。本文通过使用样本本身来构建独特的字典,不仅使稀疏表示的计算过程更加高效,还自适应的为样本构建出了邻域,将检测重心放在局部离群点上,有助于检测出更多的离群点。
3)结合局部离群因子(Local Outlier Factor)算法的思想以及基于“相似或相近的离群点在相互的稀疏表示时会得到更高的系数”的假设,提出了邻域熵的概念。根据样本对所处邻域内总体信息熵的影响来观测其异常程度,从而计算出样本的离群值。这样的做法一方面避免了传统距离度量的使用,另一方面也达到了基于局部区域来检测离群点的目的。
4)为了验证本文所提出的SNOD算法的性能,在11个真实数据集上进行了实验。且通过和现有方法进行对比,展示出本文算法更强的离群检测性能。
然而,在目前这个信息爆炸的时代,研究人员面临的问题不仅仅是数据量的庞大,数据本身的复杂度也迅速增加。面对包含了成百上千属性的高维数据,基于传统距离度量的离群检测算法难以取得令人满意的效果。因此,本文提出一种基于稀疏编码和邻域熵的离群点检测算法SNOD(Sparse codingand Neighborhood entropy based Outlier Detection),以克服传统欧式空间的高维离群度量失效问题。本文主要研究内容如下:
1)研究现有的高维离群点检测算法以及基于传统欧式距离的检测算法,包括基于子空间的算法、孤立森林算法以及局部离群因子算法等。分析这些算法在面对维度变化时的性能差异,总结维度骤增时所能检测到的离群点变化规律。
2)结合稀疏编码思想,对数据点的稀疏表示进行观察,发现普通点和离群点的稀疏表示对字典中一些特殊原子的使用有着显著差异。本文通过使用样本本身来构建独特的字典,不仅使稀疏表示的计算过程更加高效,还自适应的为样本构建出了邻域,将检测重心放在局部离群点上,有助于检测出更多的离群点。
3)结合局部离群因子(Local Outlier Factor)算法的思想以及基于“相似或相近的离群点在相互的稀疏表示时会得到更高的系数”的假设,提出了邻域熵的概念。根据样本对所处邻域内总体信息熵的影响来观测其异常程度,从而计算出样本的离群值。这样的做法一方面避免了传统距离度量的使用,另一方面也达到了基于局部区域来检测离群点的目的。
4)为了验证本文所提出的SNOD算法的性能,在11个真实数据集上进行了实验。且通过和现有方法进行对比,展示出本文算法更强的离群检测性能。