论文部分内容阅读
早期的离群点挖掘算法是针对全部数据集的,挖掘的是全局离群点。近年来,针对局部离群点的研究已引起广泛关注,而针对特定应用背景的离群点挖掘研究引起人们的广泛兴趣,出现了一些研究成果。特定时间与空间就是局部离群点存在的背景,背景离群点与全局离群点和一般的局部离群点相比更易于进行离群点的内涵知识分析。为此,需要研究新的方法来发现背景知识和背景离群点,为决策提供支持。
现有的背景离群点检测方法存在的主要局限是:(1)大多数研究还局限在离群点检测之前背景已经确定的情况,而在实际应用中先验的背景信息不一定是可用的,现实中大量离群点存在的背景在检测之前并不知道,只有在检测之时才能发现。(2)检测算法都仅仅检测到背景属性和背景离群点,未能给出背景离群点的内涵知识分析,不能说明是什么原因造成了背景离群点的产生。在很多数据挖掘应用中,背景离群点的内涵知识分析比检测得到的背景离群点更有意义。
针对上述问题,本文将数据集转化为图模型使用k-way谱聚类进行背景离群点检测,并在此基础上利用属性互信息提取背景子空间,将背景属性对行为异常的影响进行量化,获得背景离群子空间对离群点进行分析。本文的主要工作如下:
1)针对不能获得先验背景知识的问题,提出基于k-way谱聚类的背景离群点检测算法。首先由给定的数据集构造图模型,将图模型转化为概率转移矩阵,对矩阵进行求解特征值和特征向量。然后对第二小特征值对应的Fiedler向量进行分析计算获得图划分因子,根据划分因子得到背景子图划分。最后为背景子图中的对象计算随机游走概率,根据访问概率值得到背景离群点。实验结果表明,该算法不仅提高了背景子图划分和背景离群点检测的精确度,而且没有对图的结构进行改变,不会出现丢失重要信息的问题;
2)针对背景离群点分析的问题,提出基于背景属性离群频度(CAOF)的背景离群点分析和基于贝叶斯置信传播(Bayes-BP)的背景离群点分析。由前面提出的算法得到背景子图,基于CAOF的背景离群点分析方法对子图中对象的属性进行分析,首先使用属性互信息获得各个背景子图中数据对象所对应的背景子空间,然后计算背景属性对离群行为的影响,使用CAOF进行量化来得到背景离群属性。基于Bayes-BP的背景离群点分析方法首先也需要计算属性之间的互信息,以属性变量为节点,以互信息为边的权值构造无向完全图。然后将图转化为属性层次树,使用贝叶斯置信传播计算各层次属性节点的置信度,根据置信度得到背景离群属性。本文对两种分析方法获得背景离群属性的精确度进行了比较,实验结果表明,两种算法在正确率上比基于聚类的离群点分析方法(CBOC)分别提高了11.9%和20.8%:
3)为了方便用户使用该方法做一些实际的应用,设计并实现了背景离群点检测及离群点解释算法的原型系统,并对系统进行了测试,测试结果表明系统运行良好,达到预期目标。