背景离群点检测算法研究

来源 :江苏大学 | 被引量 : 0次 | 上传用户:ywbll
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
早期的离群点挖掘算法是针对全部数据集的,挖掘的是全局离群点。近年来,针对局部离群点的研究已引起广泛关注,而针对特定应用背景的离群点挖掘研究引起人们的广泛兴趣,出现了一些研究成果。特定时间与空间就是局部离群点存在的背景,背景离群点与全局离群点和一般的局部离群点相比更易于进行离群点的内涵知识分析。为此,需要研究新的方法来发现背景知识和背景离群点,为决策提供支持。   现有的背景离群点检测方法存在的主要局限是:(1)大多数研究还局限在离群点检测之前背景已经确定的情况,而在实际应用中先验的背景信息不一定是可用的,现实中大量离群点存在的背景在检测之前并不知道,只有在检测之时才能发现。(2)检测算法都仅仅检测到背景属性和背景离群点,未能给出背景离群点的内涵知识分析,不能说明是什么原因造成了背景离群点的产生。在很多数据挖掘应用中,背景离群点的内涵知识分析比检测得到的背景离群点更有意义。   针对上述问题,本文将数据集转化为图模型使用k-way谱聚类进行背景离群点检测,并在此基础上利用属性互信息提取背景子空间,将背景属性对行为异常的影响进行量化,获得背景离群子空间对离群点进行分析。本文的主要工作如下:   1)针对不能获得先验背景知识的问题,提出基于k-way谱聚类的背景离群点检测算法。首先由给定的数据集构造图模型,将图模型转化为概率转移矩阵,对矩阵进行求解特征值和特征向量。然后对第二小特征值对应的Fiedler向量进行分析计算获得图划分因子,根据划分因子得到背景子图划分。最后为背景子图中的对象计算随机游走概率,根据访问概率值得到背景离群点。实验结果表明,该算法不仅提高了背景子图划分和背景离群点检测的精确度,而且没有对图的结构进行改变,不会出现丢失重要信息的问题;   2)针对背景离群点分析的问题,提出基于背景属性离群频度(CAOF)的背景离群点分析和基于贝叶斯置信传播(Bayes-BP)的背景离群点分析。由前面提出的算法得到背景子图,基于CAOF的背景离群点分析方法对子图中对象的属性进行分析,首先使用属性互信息获得各个背景子图中数据对象所对应的背景子空间,然后计算背景属性对离群行为的影响,使用CAOF进行量化来得到背景离群属性。基于Bayes-BP的背景离群点分析方法首先也需要计算属性之间的互信息,以属性变量为节点,以互信息为边的权值构造无向完全图。然后将图转化为属性层次树,使用贝叶斯置信传播计算各层次属性节点的置信度,根据置信度得到背景离群属性。本文对两种分析方法获得背景离群属性的精确度进行了比较,实验结果表明,两种算法在正确率上比基于聚类的离群点分析方法(CBOC)分别提高了11.9%和20.8%:   3)为了方便用户使用该方法做一些实际的应用,设计并实现了背景离群点检测及离群点解释算法的原型系统,并对系统进行了测试,测试结果表明系统运行良好,达到预期目标。
其他文献
离群数据的检测与分析已经成为数据挖掘领域中一个重要的研究方向,其在金融欺诈检测和网络入侵、疾病预防和控制、灾难气象预报等许多方面都有着广泛的应用。随着研究的深入,低
随着互联网的迅猛发展,电子商务也越来越普及和流行起来。随着信息量的爆炸式增长,在电子商务领域,信息超载问题增加了用户购买所需商品的难度,用户在找到自己需要的商品之前必须
近年来,随着移动通信、移动互联网、智能终端等技术的高速发展,移动上网用户日益普及,加之社会竞争压力的增大,人们渴望能够随时、随地进行任何方式的学习。在此背景下,移动
当今社会,随着互联网的高速发展,信息无处不在。在这个“信息大爆炸”的时代,网络信息技术深刻地改变了人们的生活。如何让人们更全、更准地获取自己想要的信息,是一个亟待解
Internet上的信息量呈现着爆炸性的增长态势。人们面对海量信息并需要从中寻找到自己所要的资源时,搜索引擎已经成了最有效的方式。搜索引擎通过某种策略搜集信息,并对信息加以
在网络教学平台中,面对大量的学习资源,学习者在认知过程中,容易出现迷失的现象。鉴于学习者自身知识结构和学习过程存在的差异,一个优秀的教学平台,应能按不同用户的需求,为其提供
Facebook、Twitter、微信和微博等新型在线社交媒体,作为连接现实世界和虚拟空间的纽带,汇聚了大量的关系、行为等可感知和可计算的人类社会的数字足迹。随着网络规模的不断扩
三维虚拟地理场景仿真系统是一种能够模拟现实地理环境的系统,用户可以在工程建好之前,通过系统对场景进行欣赏,模拟的场景往往比图纸展示的效果更为直观。在场景中已经基本
指纹识别以其唯一性,终身不变性,不可丢失性等优势成为目前高效、广泛的识别算法之一,是生物特征识别领域的研究热点。但是,由于指纹自动识别系统的性能在很大程度上取决于所采集
本体提供了对共享概念模型的形式化、明确规范说明,在知识工程、电子商务、自然语言处理等很多领域有着广泛的应用。但是长期以来,本体都是由知识工程师和领域专家手工构建的