孤立点数据挖掘技术研究及应用

来源 :安徽大学 | 被引量 : 0次 | 上传用户:qhjiso
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘(Data Mining)是近几年来发展起来的一门新兴的数据库技术,它是按照既定的业务目标,对大量的数据进行探索和分析,从中提取潜在的、隐含的、有价值的知识,并进一步将其模型化的高级有效的方法。数据挖掘的模式一般可以分为关联规则、分类和预测、聚类、演变分析以及孤立点检测等。   孤立点数据是数据集中与众不同的数据,它们与数据的一般行为或模型是不一致的,这些数据并非随机偏差,而是产生于完全不同的机制。孤立点检测是数据挖掘中的一个重要方向,孤立点数据有可能是数据的真实性质的反映,孤立点数据挖掘有着广泛的应用,在银行、证券、医疗、欺诈检测等方面有着非常重要的意义。如欺诈检测,用孤立点检测来探测不寻常的信用卡使用或者电信服务;预测市场动向,在市场分析中分析客户的流失等异常行为;或者在医疗分析中发现对多种治疗方式的不寻常的反应等等。通过对这些数据进行研究,发现不正常的行为和模式,实现异常数据挖掘功能。   本文研究了常用的孤立点数据检测算法,包括基于统计的方法、基于距离的方法、基于密度的方法、基于偏差的方法及高维数据的异常检测等。在分析现有算法的基础上,提出了改进的孤立点检测方法和孤立点检测的多聚集方法。   改进的孤立点检测方法通过分析数据对象的属性距离,对数据进行孤立点检测,实验表明改进的孤立点检测方法是可行的。与基于距离的孤立点检测算法比较,在时间复杂度方面有了很大的提高,并且距离参数的设定更加简单。   基于孤立点检测的多聚集检测算法是孤立点检测方法和k-means聚类算法的综合应用。先对原始数据集进行孤立点检测,将孤立点数据分离,然后将检测到的孤立点转移到数据集中,最后对检测后数据集进行聚类检测和合并。该方法比单一的聚类方法在检测效率上有了很大的提高。
其他文献
随着人类社会的不断发展和科学探索步伐的不断前进,人们面临着越来越多的最优化问题。由于人类对生产效率的追求日趋极致,常规优化方法在有限的时间和空间内已经很难解决日益
推荐系统是解决信息过载的有效工具,它能根据用户的历史行为数据做出个性化推荐。隐语义算法作为一种经典的推荐算法在研究和应用中都取得了很大成功,但它依然存在一些问题值
网络抖动(Churn)是指在对等网络中,由参与者的匿名、自由性以及规模大的特点导致的大量节点频繁自发地加入、离开或失效的现象。抖动是影响对等网络系统性能的一个重要因素,
随着Web服务技术的快速发展和应用,Web服务的数量与日俱增,提供的功能也越来越多样化。然而,单个Web服务提供的功能有限,很多时候都不能满足用户多样性的需求,这就需要将已有
随着信息技术的不断发展,社会信息化程度的不断提高,企业的信息化程度越来越高,由于业务流程变化、需求变化或是业务整合的需要,企业各信息系统需要更多的通信和交互,各系统
最优化是当前计算科学和工程实际领域中普遍存在的重要问题,例如经济学中的利益最大化、电子工程中的信号干扰最小化等。优化问题的种类及数量很多,本文针对单目标优化、多目标
随着计算机和网络技术的发展和普及,计算机化考试的应用越来越广泛。这种考试形式可以相对减少考试环节中的人为主观因素,可以更快捷、更方便、更准确地组织考试工作,并大大
随着互联网技术和计算机技术的发展,P2P技术和网格计算已经发展为一个重要的研究领域,两者都是为了能够很好解决大规模的地理分布的资源共享而兴起的下一代计算技术。其中两者
一个无线传感器网络是由部署在一个地理区域的传感器节点组成的,用来监视物理现象如温度、湿度、地震现象等等。典型的,一个传感器设备由三个基本部分组成:在周围环境获得数据
在现代企业中,由于磁盘损坏导致的数据丢失或者访问中断等,都可能给企业带来无法挽回的损失,数据的容灾备份在信息化时代变得日益重要。容灾备份系统在一定程度上较好保证了