基于Spark系统的数据异常检测与修复方法的设计与实现

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:long_drago
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据技术的快速发展,数据挖掘技术在推动各行业的产业发展中发挥着越来越重要的作用。但是,数据挖掘需要高质量的数据,大多数的自然数据通常会存在例如重复值、缺失值、异常值等异常数据,这些低质量的数据会带来错误的结果甚至引发灾难性的问题。因此,如何对低质量数据进行异常检测与修复是一个不容忽视的问题。目前,国内外相关研究在异常值方面未考虑数据特征的相互关系,降低了检测精确度,缺失值方面对通用数据进行填补效果不理想。针对上述问题,本文设计实现一个基于Spark平台的数据异常检测与修复的系统,提出一个两阶段算法。第一阶段是一种基于分组的数据异常检测算法,该算法对传统的LOF(Local Outlier Factor)算法进行改进,并考虑属性变量间相关性,利用CF-Tree对属性变量进行分组,最后对算法进行并行化改写,以提升检测效果;第二阶段是一种基于随机森林的数据异常修复算法,该阶段的算法对第一阶段得到的异常数据进行修复,为适应不同类型数据样本,引入改进的网格搜索的方法对预测模型进行不断调整,通过动态调参的方法和并行化的方式生成高质量数据。实验结果表明,本文设计的数据异常检测和修复方法在精度上有所提升,并且检测方法在时间上有一定优化。
其他文献
本文运用逻辑分析法、专家访谈法、田野调查法、文献资料法等科研方法,并立足于体育产业学科基础上结合民族传统体育学、经济学、市场营销学,传播学、旅游学等学科知识,对太
本论文主要研究美国自1888——1918年美国学制的发展变动过程,主要分三个阶段进行:对八四制和七八年级课程的讨论——学制学术层面的讨论(1888——1899年);对学制与课程的进
近几十年来,中国经济高速发展,城镇化建设逐渐加快,居民用地紧缺与土地使用金昂贵之间的矛盾日益加剧,结构设计师都在尝试寻找更好的结构形式来缓解这两者之间的矛盾。轻钢龙
廉洁文化是随着私有制的产生和腐败现象的出现应运而生的,是腐朽文化的对立面和批判者。为政以德、以民为本、知耻而后勇、治国先治吏等是中国传统廉洁文化的思想精华。传统
数据挖掘技术可以从大量的繁杂的数据中快速地发现有价值的数据,其中数据分类技术是一个重要分支和应用。本文在数据密度方面进行分析和研究的基础上重点进行了两部分工作的
整整100年前,1900年8月,在湖北、湖南、安徽等省,爆发了一次震惊中外的“自立军”起义。这次起义是在戊戌维新运动失败之后,中国民族危机愈加严重的历史条件下发生的。与维新运动不同,它试
目的:分析18-三体综合征胎儿的中孕期超声表现,探讨其在产前诊断中的作用。方法:对2006年1月~2011年3月在广西壮族自治区妇幼保健院经产前诊断发现的32例中孕期18-三体综合征
在自立军事件中,历来流行这样的观点:在起义前唐才常曾通过日本人与张之洞联络,表示自立军拥立张之洞据两湖独立,而张之洞犹疑莫决,对自立军的早期准备活动持默认态度。如冯
为进一步提高高职院校对道德教育的重视程度,为高职院校育人提供必要的依据和可行的建议,进一步研究新媒体背景下高职院校学生德育的现状及其影响因素,笔者紧紧围绕“立德树
我国是一个煤炭消费大国,长期以来煤炭在消费结构中的占比高达70%左右,为我国经济社会发展做出了不可磨灭的贡献。但随着我国经济发展模式的转变,市场需求减弱加上国际优质资