基于Hadoop2.0的海量数据处理

被引量 : 2次 | 上传用户:tianshi6868
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网高速发展的今天,人们开始被信息所淹没,对于提供网络服务的各大互联网公司来说,每天都有大量的信息需要处理,以分析用户的需求以及各种产品的效果等,而且某些数据处理还有实时性的要求,而传统的软件处理方法已经不能满足其对于存储空间和处理时间的要求,在这样的背景下,关于大数据方面的技术出现了,解决了数据处理的空间和时间上的限制。Hadoop是近几年崛起的在大数据领域具有统治力的技术,其编程模型MapReduce,存储模型HDFS,数据仓库Hive等在解决实际问题方面有着自己独特的优势。本文的主要目的是研究如何利用Hadoop来解决实际的问题。本文选取一个分和式数据抓取案例来研究Hadoop生态圈中各个组件的具体应用,案例分为五个基本步骤,即任务生成、URL生成、数据抽取、数据聚合、数据输出,分别由Task Generator, URL Generator, Data Extractor, Data Aggreator, Common Publisher五个模块完成,模块之间按顺序执行并完成数据传递。本文最后通过埘案例的测试结果进行性能分析,证实Hadoop确实优于传统的数据处理系统,并结合实验结果和组件原理分析各个组件的适用范围。在整个案例的实施过程当中,由于各个模块之间存在着依赖关系,并且每个模块存在运行失败的可能,Oozie是大数据领域高性能和容错性很强的一个框架,所以选用Oozie作为调度和监控系统。
其他文献
本文以某医院综合办公楼智能化系统设计方案为例,详细介绍了医院智能化系统的主要配置和系统构成,为相关医院智能化专业设计提供了一定的参考。
政府旅游管理是伴随着网络技术和计算机技术发展而发展的,其属于电子政务的一个重要组成部分。随着人们生活水平的不断提高,人们对于旅游的热衷程度也是越来越高,这引起了地
变异理论是瑞典哥德堡大学的马飞龙教授(Ference Marton)等于1970年代创立的现象图式学基础上发展而来的一种理论。与一般的理论和实践之间存在的巨大的鸿沟不同,变异理论从
文章介绍了医院智能卡系统的组成和建设需求,详细分析了智能卡系统的功能要求,为建设全方位一体化的智慧管理系统提供借鉴。
信息技术的发展对在校学生的生活、学习等各方面都产生了较大影响,学生宿舍信息化管理也在其中。学生宿舍的管理水平直接影响到学生各方面的利益,同时也是保障学校教学秩序的
航空情报的处理、传递在航空飞行领域中非常重要,与人们的生命财产安全息息相关。传统的航空情报服务所包含的信息量较少,主要以纸质报文形式传递,不仅易读性差,而且效率低下
目的探讨三Endobutton钢板解剖重建喙锁韧带治疗肩锁关节脱位的初步临床疗效。方法对25例肩锁关节脱位患者应用三Endobutton钢板解剖重建喙锁韧带治疗的临床疗效进行分析。结
受东北冷涡西南部冷空气南下影响,2009年6月初浙江省连续发生了两次不同特点的强降水过程。利用常规气象观测资料、自动站资料、NCEP再分析资料及卫星TBB资料,对这两次东北冷涡