论文部分内容阅读
随着计算机技术的飞速发展,数据挖掘技术也得到了快速发展,其中,异常点挖掘是数据挖掘的一个重要方向,也被称作异常点检测,异常点是指那些与大多数数据不一致或者偏离正常行为的数据。研究异常点数据比正常数据更具有价值,异常点检测目前它已经被广泛的应用于网络入侵,医学诊断,信用卡欺诈,故障诊断等领域,也是大数据时代获得有效信息一种重要手段。目前,针对数据挖掘中的异常点检测问题,国内外学者相继提出了多种异常点检测方法,主要包括基于统计的异常点检测方法,基于距离的异常点检测方法,基于密度的异常点检测方法,基于聚类的异常点检测方法等。同时异常点按数据属性类型可以分为分类属性异常点和数值属性异常点,本文分析了异常点检测方法的研究背景、意义及国内外研究现状并主要针对这两种数据类型作了如下的工作:对于分类属性数据,首先针对分类属性数据提出了一种剪枝算法,对数据预处理,去除掉那些不可能的异常点,并证明了其合理性。然后介绍了一种改进的信息熵的异常点检测方法,将通过剪枝获得的候选集采用和熵进行异常点的检测,避免了多次扫描数据集,提高时间效率:针对数据分布稀疏导致的多个异常点可能在同一时间被选出来这一问题,采用AVF(Attribute Value Frequency)算法当作一种辅助准则来提高异常点检测的准确性,实验结果表明,所提出的方法能够更高效的检测出分类属性数据集的异常点并提高了准确率。对于数值属性数据,本文主要基于K-means聚类和基于密度的LOF(Local Outl ier Factor)算法进行异常点的检测,为了降低K-means算法的迭代次数,提高聚类效率,首先基于密度分布选择出一个高密度集合作为聚类中心的候选集,然后给出了一种基于最大距离积法的算法选择聚类的初始中心,整个聚类过程与MapReduce编程模型结合。对聚类形成的每个簇,采用合理的剪枝算法选取异常点的候选集,最后,将候选集基于密度LOF算法进行二次判断,获得更准确的异常点。实验结果表明,基于距离积的初始聚类中心算法的聚类效率更高,所提出的方法对数值属性异常点检测的准确度更高,也具有更好的扩展性和加速比。