基于分类和数值型大数据异常点检测算法研究

来源 :沈阳建筑大学 | 被引量 : 0次 | 上传用户：blueflower368

【摘要】

：

随着计算机技术的飞速发展,数据挖掘技术也得到了快速发展,其中,异常点挖掘是数据挖掘的一个重要方向,也被称作异常点检测,异常点是指那些与大多数数据不一致或者偏离正常行

【作者】

：

吕计坤

【出处】

：

沈阳建筑大学

【发表日期】

：

2004年期

【关键词】

：

异常点检测信息熵 K-means MapReduce LOF算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机技术的飞速发展,数据挖掘技术也得到了快速发展,其中,异常点挖掘是数据挖掘的一个重要方向,也被称作异常点检测,异常点是指那些与大多数数据不一致或者偏离正常行为的数据。研究异常点数据比正常数据更具有价值,异常点检测目前它已经被广泛的应用于网络入侵,医学诊断,信用卡欺诈,故障诊断等领域,也是大数据时代获得有效信息一种重要手段。目前,针对数据挖掘中的异常点检测问题,国内外学者相继提出了多种异常点检测方法,主要包括基于统计的异常点检测方法,基于距离的异常点检测方法,基于密度的异常点检测方法,基于聚类的异常点检测方法等。同时异常点按数据属性类型可以分为分类属性异常点和数值属性异常点,本文分析了异常点检测方法的研究背景、意义及国内外研究现状并主要针对这两种数据类型作了如下的工作:对于分类属性数据,首先针对分类属性数据提出了一种剪枝算法,对数据预处理,去除掉那些不可能的异常点,并证明了其合理性。然后介绍了一种改进的信息熵的异常点检测方法,将通过剪枝获得的候选集采用和熵进行异常点的检测,避免了多次扫描数据集,提高时间效率:针对数据分布稀疏导致的多个异常点可能在同一时间被选出来这一问题,采用AVF(Attribute Value Frequency)算法当作一种辅助准则来提高异常点检测的准确性,实验结果表明,所提出的方法能够更高效的检测出分类属性数据集的异常点并提高了准确率。对于数值属性数据,本文主要基于K-means聚类和基于密度的LOF(Local Outl ier Factor)算法进行异常点的检测,为了降低K-means算法的迭代次数,提高聚类效率,首先基于密度分布选择出一个高密度集合作为聚类中心的候选集,然后给出了一种基于最大距离积法的算法选择聚类的初始中心,整个聚类过程与MapReduce编程模型结合。对聚类形成的每个簇,采用合理的剪枝算法选取异常点的候选集,最后,将候选集基于密度LOF算法进行二次判断,获得更准确的异常点。实验结果表明,基于距离积的初始聚类中心算法的聚类效率更高,所提出的方法对数值属性异常点检测的准确度更高,也具有更好的扩展性和加速比。

其他文献

共青团服务青年就业创业路径的研究

青年就业是青年最现实、最迫切的需求,同时也决定着青年社会化的进程,也与经济、社会、政治、文化各个方面息息相关。创业作为最为积极的就业方式,对就业具有很好的带动作用

学位

共青团就业创业路径

国内社区卫生服务发展问题分析及对策

目的探讨国内社区卫生服务发展问题,并提出相应的对策。方法回顾性总结和分析国内社区卫生服务发展存在的问题。结果国内社区卫生服务发展存在以下的问题:社会力量主办的社区

期刊

社区卫生服务卫生管理

浅谈实验室信息管理系统在检验机构实验室质量管理中的作用

本文阐述了实验室信息管理系统(LIMS)在实验室质量管理中的作用,分析了LIMS在运行中的质量控制、资源管理、质量分析等问题,旨在强化和提升检验检测机构工作人员对LIMS系统的

期刊

过程控制质量控制资源管理质量分析

模糊语言产生的动机分析

清楚、明确是人们对语言表达的一贯要求，但在现实生活中，模糊语言大量存在。模糊语言产生(表达)是言者的心理因素与语境、听者等诸因素交互作用的结果。人的心理因素就其个

学位

动机模糊语言模糊语言产生

技术创新、融资能力与科技型中小企业绩效

随着知识经济的发展与科学技术的进步,科技型中小企业所具有的技术创新能力和灵活的机制,使其已然成为我国转变经济增长方式、调整国民经济结构、促进经济发展的重要力量。对

学位

科技型中小企业技术创新融资能力调节效应企业绩效

产后出血的原因分析及护理

目的了解产后出血的原因并提出相应的对策。方法回顾性分析和总结220例产妇发生产后大出血的原因。结果220例产妇发生产后大出血的原因分别为:宫缩乏力139例(63.2%),胎盘因素

期刊

产妇产后出血护理

德州市纪检监察信访问题及对策研究

人民群众通过写信、走访等活动,向纪检监察机关反映自己的要求和愿望,揭发公职人员的违纪违法行为,维护自己的切身利益,这是人民群众的民主权利,是群众政治生活的一部分,也是

学位

纪检监察信访问题对策

幼儿园环境布置的文化反思

环境是对个体成长和发展具有重要作用的教育资源.幼儿园要为幼儿创设良好的环境,促进幼儿认知、情感和社会性的全面发展.本文通过对幼儿园环境布置的思考,分析目前幼儿园环境

期刊

环境幼儿园环境反思

藏北荣玛乡早古生代碎屑岩地球化学特征及地质意义

西藏自治区北部那曲地区荣玛乡位于南羌塘地块的北部,在荣玛乡西约3km的温泉发育有一典型的不整合面,由中、上奥陶统塔石山组平行不整合于一套浅变质中厚层石英砂岩夹薄层泥

学位

藏北奥陶纪不整合面碎屑锆石泛非运动冈瓦纳大陆

创作视域下混合型电子音乐之文化命题与声学特征的关联性探究——以许舒亚《太一Ⅱ》为例

科技的发展自20世纪中叶起,给社会生活以及文化艺术带来了革命性的变化。在音乐领域,则体现出有更多媒介参与的特点,"多元化"的标志亦随之印刻。在这一洪流中"电子声学音乐"(

期刊

混合型电子音乐预制电子音乐许舒亚太一双主体声学音乐音色

基于分类和数值型大数据异常点检测算法研究

其他学术论文