【摘 要】
:
二十一世纪以来,伴随着网络传输技术的进步和链路带宽的增长,互联网用户和应用快速增长,随之带来的最明显的变化就是数据量呈指数式爆炸性增长,海量的网络流量数据带来了存储
论文部分内容阅读
二十一世纪以来,伴随着网络传输技术的进步和链路带宽的增长,互联网用户和应用快速增长,随之带来的最明显的变化就是数据量呈指数式爆炸性增长,海量的网络流量数据带来了存储和计算方面的问题,凭借着高可靠性、高效性、高扩展性、高容错性和低成本的特点,Hadoop平台成为海量网络流量数据分析的首选平台,然而随着数据量进一步的迅猛增长,Hadoop已越来越力不从心了。此时,Spark应运而生,相比MapReduce而言,它代码更加简洁、计算更加高效。面对日益增长的网络流量数据,网络海量数据分析的性能优化显得尤为重要。本文首先对Hadoop数据分析平台进行介绍,简单阐述了计算模型MapReduce和分布式文件系统HDFS,并重点讨论了 Spark计算框架,包括Spark整体架构、核心概念、作业执行流程以及Shuffle。然后基于海量数据分析应用,提出包括选择合适的算子、改善数据本地性、持久化和选择合适的并行度在内的性能优化方式优化作业,并实验评估对比性能。接下来,对Spark常用的join操作,以PageRank算法为例,实现对join操作的优化与性能评估。这对需要连接操作,特别是对于需要执行多次连接的递归场景非常有指导意义。
其他文献
《对玻尔兹曼分布说明的探讨》一文认为多种文献对"最概然分布的微观状态数非常接近于全部微观状态数"的证明存在问题,值得改进,并提出了一种"新的方法".其实两者完全一致,并不存
针对目前多车场、多车型车辆路径问题存在的求解效率低和解的质量差等不足,建立了该问题的整数规划模型,提出了多染色体遗传算法,统一了多车场、多车型问题与传统单车场、单
为解决钢轨端部平直度不达标的问题,分析了高速轨端部平直度不合格的原因,指出钢轨每道次进轧机时的冲击力和出钢时走势不正是导致端部原始曲率大小和方向各不相同,经矫直后
近年来,家庭政策作为社会政策的一种,正在逐渐受到重视,但社会政策中的家庭概念却非常模糊,以至于在政策执行中遇到困难和有失公平。本研究反思中国的"家庭"定义在理论与实践层
人口老龄化是21世纪的重大社会问题,是中国社会经济发展中带有全局性、战略性的重大问题,也是国际社会普遍关注的热点问题。社区养老是以家庭养老为主,社区机构养老为辅,在为
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食
Back to yield
研究一类捕食者和被捕食者都具有阶段结构,功能响应是非单调函数的时滞捕食与被捕食系统的概周期性,利用Brouwer不动点定理获得了系统存在概周期解的条件。
为了实现对已有数控工艺设计成果的有效重用,提出了一种基于局部特征匹配的数控工艺推荐系统模型,该模型利用局部特征级的三维极半径矩结合几何尺寸等其他几何语义信息建立加
微电网在实际运行的过程中,具有多种储能单元以及分布式电源,为其提供运行能量。基于此,本文将首先介绍微电网中常见的储能单元。其次,分析储能单元运行基础上微电网的经济运