基于Spark的海量数据分析与性能优化

来源 :北京邮电大学 | 被引量 : 3次 | 上传用户：lovefish777

【摘要】

：

二十一世纪以来,伴随着网络传输技术的进步和链路带宽的增长,互联网用户和应用快速增长,随之带来的最明显的变化就是数据量呈指数式爆炸性增长,海量的网络流量数据带来了存储

【作者】

：

邱德扬

【出处】

：

北京邮电大学

【发表日期】

：

2018年01期

【关键词】

：

网络流量分析作业优化 Hadoop Spark Join

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

二十一世纪以来,伴随着网络传输技术的进步和链路带宽的增长,互联网用户和应用快速增长,随之带来的最明显的变化就是数据量呈指数式爆炸性增长,海量的网络流量数据带来了存储和计算方面的问题,凭借着高可靠性、高效性、高扩展性、高容错性和低成本的特点,Hadoop平台成为海量网络流量数据分析的首选平台,然而随着数据量进一步的迅猛增长,Hadoop已越来越力不从心了。此时,Spark应运而生,相比MapReduce而言,它代码更加简洁、计算更加高效。面对日益增长的网络流量数据,网络海量数据分析的性能优化显得尤为重要。本文首先对Hadoop数据分析平台进行介绍,简单阐述了计算模型MapReduce和分布式文件系统HDFS,并重点讨论了 Spark计算框架,包括Spark整体架构、核心概念、作业执行流程以及Shuffle。然后基于海量数据分析应用,提出包括选择合适的算子、改善数据本地性、持久化和选择合适的并行度在内的性能优化方式优化作业,并实验评估对比性能。接下来,对Spark常用的join操作,以PageRank算法为例,实现对join操作的优化与性能评估。这对需要连接操作,特别是对于需要执行多次连接的递归场景非常有指导意义。

其他文献

浅谈玻尔兹曼分布的微小偏离量所引起的微观状态数的变化

《对玻尔兹曼分布说明的探讨》一文认为多种文献对＂最概然分布的微观状态数非常接近于全部微观状态数＂的证明存在问题,值得改进,并提出了一种＂新的方法＂.其实两者完全一致,并不存

期刊

玻尔兹曼分布微观状态数泰勒展开Boltzmann distribution number of micro-states Taylor expansio

多车场与多车型车辆路径问题的多染色体遗传算法

针对目前多车场、多车型车辆路径问题存在的求解效率低和解的质量差等不足,建立了该问题的整数规划模型,提出了多染色体遗传算法,统一了多车场、多车型问题与传统单车场、单

期刊

车辆路径问题多车场多车型遗传算法多染色体

高速轨端部平直度控制方法的研究与运用

为解决钢轨端部平直度不达标的问题,分析了高速轨端部平直度不合格的原因,指出钢轨每道次进轧机时的冲击力和出钢时走势不正是导致端部原始曲率大小和方向各不相同,经矫直后

期刊

高速轨原始曲率端部平直度矫直high-speed railoriginal curvatureend flatnessstraightening

社会政策中的“家庭”概念——以上海市世博大礼包政策为例

近年来,家庭政策作为社会政策的一种,正在逐渐受到重视,但社会政策中的家庭概念却非常模糊,以至于在政策执行中遇到困难和有失公平。本研究反思中国的＂家庭＂定义在理论与实践层

期刊

社会政策家庭家庭户户

人口老龄化背景下长沙市社区养老现状分析

人口老龄化是21世纪的重大社会问题,是中国社会经济发展中带有全局性、战略性的重大问题,也是国际社会普遍关注的热点问题。社区养老是以家庭养老为主,社区机构养老为辅,在为

期刊

人口老龄化社区养老长沙市

基于“教、学、评”一致性的复习课设计——以“二次根式”为例

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

期刊

教学评价一致性初中数学复习课二次根式

具有非单调功能响应及阶段结构的时滞捕食与被捕食系统的概周期性

研究一类捕食者和被捕食者都具有阶段结构,功能响应是非单调函数的时滞捕食与被捕食系统的概周期性,利用Brouwer不动点定理获得了系统存在概周期解的条件。

期刊

概周期解捕食与被捕食阶段结构非单调功能响应almost periodicity predator-prey stage structure non

基于局部特征的模具数控加工推荐系统

为了实现对已有数控工艺设计成果的有效重用,提出了一种基于局部特征匹配的数控工艺推荐系统模型,该模型利用局部特征级的三维极半径矩结合几何尺寸等其他几何语义信息建立加

期刊

数控加工工艺复用相似性度量特征检索推荐系统CNC machiningprocess reusesimilarity measurefeature re

基于储能单元运行方式优化的微电网经济运行分析

微电网在实际运行的过程中,具有多种储能单元以及分布式电源,为其提供运行能量。基于此,本文将首先介绍微电网中常见的储能单元。其次,分析储能单元运行基础上微电网的经济运

期刊

储能单元运行方式微电网

基于Spark的海量数据分析与性能优化

其他学术论文