基于spark平台的数据填充技术研究与实现

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:josenhu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网的普及,数据量呈现爆发式增长。然而,人们却经常抱怨“数据丰富,信息贫瘠”,其主要原因是对数据质量的把控能力有待提高。因此,数据清洗环节作为ETL过程的首要步骤,受到越来越多人的重视。字段缺失是数据清洗领域中常见问题,也是对数据挖掘算法影响最大的异常状态。传统算法对缺失字段的填充正确率较低,因此,我们需要使用新的思路来解决这一问题。与此同时,PB级别的数据量使得以往单机模式的存储和计算技术都受到了前所未有的挑战,为了解决这些问题,分布式技术应运而生。如何有效地使用分布式计算技术来进行数据清洗,并对计算过程做出优化,成为这一研究领域的热点问题。本文提出一种基于关联规则的空缺值填充算法,并完成基于Spark架构的数据填充系统实施和程序优化,具体工作如下:(1)根据关联规则来设计缺失字段填充算法。通过修改关联规则中项集增长、规则选取等步骤策略,避免了规则集生成过程中的冗余计算。(2)部署分布式集群,其中包括分布式存储系统HDFS、计算框架Spark和数据仓库分析工具Hive等,并安装用于存储元属性信息的Mysql等软件。(3)完成基于Spark框架的分布式数据填充系统,并对中间结果集持久化和负载均衡等环节做出优化。在保证程序逻辑合理的同时,提升系统资源利用率。
其他文献
近年来,随着人们环保意识的增强和政府对于环境保护力度的加大,液体酸催化剂的高污染、难处理等缺点被无限放大。因此寻找一种可替代或可部分替代液体酸的酸性催化剂已经成为
本文主要采用NOAA卫星的月平均SST温度定义了西太暖池范围,使用ECMWF风场月平均资料,分析了1979年1月—2015年12月总共444个月西太暖池上空四个气压层(1000hPa、925hPa、850h
本文研究了相依风险模型尾概率的渐近性态问题,主要内容包括以下几个方面.第一章,简要介绍了重尾分布族和Copula函数的基本概念及其性质.第二章,考虑了额度-依赖的更新风险模
工程结构优化问题常受限于优化模型非线性程度高、数值仿真过程占用大量系统资源,优化求解耗时多等因素影响,有限资源和时间内难以得到有效的优化结果。“试验设计+代理模型
行人检测是计算机视觉领域中研究的一个重要方面,国内外研究者从特征提取和运动信息两方面提出了各种不同的算法。在行人检测过程中,行人检测的效果容易受到外部环境(光照、
单柱模式是目前气候模式中物理过程参数化方案研究的重要手段之一,能更好地揭示其物理过程的特征和本质。论文将单柱模式应用于海洋行星边界层的研究中,针对单柱模式计算中存
陈家坝矿床位于陕西省勉略阳三角地带的中部古基底缝合带北侧,在该矿床内已经发现了多个矿(化)体,显示出很好的成矿潜力。前人对该矿床的构造地球化学,岩石学,火山机构等作了
破产概率的研究属于现代风险理论研究的一个重要分支.实际中破产概率是保险公司偿付能力指标的重要组成部分,对保险实务操作有着深远影响.很多学者已经对更新风险模型中破产
巴西橡胶树(Hevea brasiliensis)是一种大戟科橡胶树属的、多年生的、能生产天然橡胶的热带经济乔木。前人已构建有多张遗传图谱,大多数图谱都分为18条连锁群,而少数分为22或23条不等的连锁群。因此,就会存在多个连锁群对应一条染色体的情况,连锁群上的遗传标记在染色体上的真实位置也尚未清楚。橡胶树分子细胞遗传图谱是研究橡胶树的基因组学和橡胶树遗传发育的重要工具,能够揭示连锁群与染色体的对
目前,能源危机日益严重,新能源产业已成为了上至各国政府,下至民间资本的关注重点。在传统化石能源当中,天然气作为一种重要的绿色能源,获得世界各国的普遍关注与重视,并实现