基于分类和数值型大数据异常点检测算法研究

来源 :沈阳建筑大学 | 被引量 : 0次 | 上传用户:blueflower368
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的飞速发展,数据挖掘技术也得到了快速发展,其中,异常点挖掘是数据挖掘的一个重要方向,也被称作异常点检测,异常点是指那些与大多数数据不一致或者偏离正常行为的数据。研究异常点数据比正常数据更具有价值,异常点检测目前它已经被广泛的应用于网络入侵,医学诊断,信用卡欺诈,故障诊断等领域,也是大数据时代获得有效信息一种重要手段。目前,针对数据挖掘中的异常点检测问题,国内外学者相继提出了多种异常点检测方法,主要包括基于统计的异常点检测方法,基于距离的异常点检测方法,基于密度的异常点检测方法,基于聚类的异常点检测方法等。同时异常点按数据属性类型可以分为分类属性异常点和数值属性异常点,本文分析了异常点检测方法的研究背景、意义及国内外研究现状并主要针对这两种数据类型作了如下的工作:对于分类属性数据,首先针对分类属性数据提出了一种剪枝算法,对数据预处理,去除掉那些不可能的异常点,并证明了其合理性。然后介绍了一种改进的信息熵的异常点检测方法,将通过剪枝获得的候选集采用和熵进行异常点的检测,避免了多次扫描数据集,提高时间效率:针对数据分布稀疏导致的多个异常点可能在同一时间被选出来这一问题,采用AVF(Attribute Value Frequency)算法当作一种辅助准则来提高异常点检测的准确性,实验结果表明,所提出的方法能够更高效的检测出分类属性数据集的异常点并提高了准确率。对于数值属性数据,本文主要基于K-means聚类和基于密度的LOF(Local Outl ier Factor)算法进行异常点的检测,为了降低K-means算法的迭代次数,提高聚类效率,首先基于密度分布选择出一个高密度集合作为聚类中心的候选集,然后给出了一种基于最大距离积法的算法选择聚类的初始中心,整个聚类过程与MapReduce编程模型结合。对聚类形成的每个簇,采用合理的剪枝算法选取异常点的候选集,最后,将候选集基于密度LOF算法进行二次判断,获得更准确的异常点。实验结果表明,基于距离积的初始聚类中心算法的聚类效率更高,所提出的方法对数值属性异常点检测的准确度更高,也具有更好的扩展性和加速比。
其他文献
青年就业是青年最现实、最迫切的需求,同时也决定着青年社会化的进程,也与经济、社会、政治、文化各个方面息息相关。创业作为最为积极的就业方式,对就业具有很好的带动作用
目的探讨国内社区卫生服务发展问题,并提出相应的对策。方法回顾性总结和分析国内社区卫生服务发展存在的问题。结果国内社区卫生服务发展存在以下的问题:社会力量主办的社区
本文阐述了实验室信息管理系统(LIMS)在实验室质量管理中的作用,分析了LIMS在运行中的质量控制、资源管理、质量分析等问题,旨在强化和提升检验检测机构工作人员对LIMS系统的
清楚、明确是人们对语言表达的一贯要求,但在现实生活中,模糊语言大量存在。模糊语言产生(表达)是言者的心理因素与语境、听者等诸因素交互作用的结果。 人的心理因素就其个
随着知识经济的发展与科学技术的进步,科技型中小企业所具有的技术创新能力和灵活的机制,使其已然成为我国转变经济增长方式、调整国民经济结构、促进经济发展的重要力量。对
目的了解产后出血的原因并提出相应的对策。方法回顾性分析和总结220例产妇发生产后大出血的原因。结果220例产妇发生产后大出血的原因分别为:宫缩乏力139例(63.2%),胎盘因素
人民群众通过写信、走访等活动,向纪检监察机关反映自己的要求和愿望,揭发公职人员的违纪违法行为,维护自己的切身利益,这是人民群众的民主权利,是群众政治生活的一部分,也是
环境是对个体成长和发展具有重要作用的教育资源.幼儿园要为幼儿创设良好的环境,促进幼儿认知、情感和社会性的全面发展.本文通过对幼儿园环境布置的思考,分析目前幼儿园环境
西藏自治区北部那曲地区荣玛乡位于南羌塘地块的北部,在荣玛乡西约3km的温泉发育有一典型的不整合面,由中、上奥陶统塔石山组平行不整合于一套浅变质中厚层石英砂岩夹薄层泥
科技的发展自20世纪中叶起,给社会生活以及文化艺术带来了革命性的变化。在音乐领域,则体现出有更多媒介参与的特点,"多元化"的标志亦随之印刻。在这一洪流中"电子声学音乐"(