论文部分内容阅读
数据挖掘(Data Mining)是近几年来发展起来的一门新兴的数据库技术,它是按照既定的业务目标,对大量的数据进行探索和分析,从中提取潜在的、隐含的、有价值的知识,并进一步将其模型化的高级有效的方法。数据挖掘的模式一般可以分为关联规则、分类和预测、聚类、演变分析以及孤立点检测等。
孤立点数据是数据集中与众不同的数据,它们与数据的一般行为或模型是不一致的,这些数据并非随机偏差,而是产生于完全不同的机制。孤立点检测是数据挖掘中的一个重要方向,孤立点数据有可能是数据的真实性质的反映,孤立点数据挖掘有着广泛的应用,在银行、证券、医疗、欺诈检测等方面有着非常重要的意义。如欺诈检测,用孤立点检测来探测不寻常的信用卡使用或者电信服务;预测市场动向,在市场分析中分析客户的流失等异常行为;或者在医疗分析中发现对多种治疗方式的不寻常的反应等等。通过对这些数据进行研究,发现不正常的行为和模式,实现异常数据挖掘功能。
本文研究了常用的孤立点数据检测算法,包括基于统计的方法、基于距离的方法、基于密度的方法、基于偏差的方法及高维数据的异常检测等。在分析现有算法的基础上,提出了改进的孤立点检测方法和孤立点检测的多聚集方法。
改进的孤立点检测方法通过分析数据对象的属性距离,对数据进行孤立点检测,实验表明改进的孤立点检测方法是可行的。与基于距离的孤立点检测算法比较,在时间复杂度方面有了很大的提高,并且距离参数的设定更加简单。
基于孤立点检测的多聚集检测算法是孤立点检测方法和k-means聚类算法的综合应用。先对原始数据集进行孤立点检测,将孤立点数据分离,然后将检测到的孤立点转移到数据集中,最后对检测后数据集进行聚类检测和合并。该方法比单一的聚类方法在检测效率上有了很大的提高。