基于Hadoop平台的在线数据处理系统的设计与实现

来源 :北京邮电大学 | 被引量 : 13次 | 上传用户:d102169104
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术以及互联网运用高速地扩展到人类社会生产生活的各个方面,数据量呈现出爆发性的增长。如今,大数据集以及超大数据集的存储和处理已成为很多企业面临的新的挑战,相应地基于数据处理的应用受到广泛关注。Hadoop是一种针对大数据存储与处理的开源分布式计算平台,它实现了HDFS(分布式文件系统)和MapReduce编程模式,能够批量处理大规模数据。但它们主要是为离线数据设计,并不能够对在线数据流进行处理。此外,随着智能终端的普及,如今互联网已经逐渐变化成移动互联网,用户可以随时随地地接入互联网。流式数据的规模量逐步增长,内容和服务的实时性也变得重要起来。这将对实时计算能力提出更高的要求,因此产生了分布式的实时计算平台如Storm o如同Hadoop代表离线数据的批量分布式存储与处理,Twitter公司开源的Storm代表在线数据的实时流计算系统,且保证了分布式、容错。此外Yahoo!的S4、加州大学伯克利分校的Spark、Facebook的Puma等也是当今比较流行的实时计算框架。但这些实时计算框架只专注于实时计算,没有提供数据源的接入服务,并且用户不仅要搭建部署这些框架,还需要学习对应的开发语言或者接口调用,学习成本高降低了业务需求的处理效率本文设计实现了一个分布式、可扩展的在线数据处理平台架构,并实现了一个系统来提供数据的存储服务以及统计服务。用户能够从底层开发中解绑,只需要关注自己的业务逻辑,让开发在线数据处理任务更加便捷。系统基于Hadoop平台,采用Storm作为实时计算框架,为在线任务的执行提供了外部环境。并且采用KeyValue数据库HBase作为主要的存储方式,使得系统在高并发的情况下仍然能够稳定服务。此外,系统为用户提供了统一的通信规则,用户可以根据这套规则对业务处理逻辑进行自定义,大大提高了用户的效率。
其他文献
在可再生能源大规模接入电力系统的背景下,考虑功率预测误差对电力系统调度模型功率平衡方程的影响,主要就含有不确定变量的功率平衡方程的求解问题进行研究,建立基于相关机
爱克发将在druPa2008展会上展出全新的产品及解决方案。绿星版:Azurars/:Azura V 绿星版:AZura TS是市场领先的环保免化学处理热敏CTP绿星版:Azura的升级产品,采用爱克发最新热熔技
经济增长与环境质量的关系一直是环境资源与生态经济学研究的热点问题,然而相关研究尚无定论。环境与经济增长发展间关系的实证研究基本上都是围绕着环境库兹涅茨曲线假设而
户口,曾经是计划经济时代烙在人们身上最深的印痕之一。但在今天的沈阳,这个印痕已经变得越来越淡。$$   作为老牌重工业基地,沈阳的振兴不仅要有“老树换新枝”的韧劲,更要
报纸
以油用牡丹"凤丹"(Paeonia ostii)为试材,采用生物信息学方法,对调控多不饱和脂肪酸合成的关键酶ω-6脂肪酸脱氢酶(Fatty acid desaturase,FAD2)基因进行生物信息学分析,以期