论文部分内容阅读
随着计算机技术以及互联网运用高速地扩展到人类社会生产生活的各个方面,数据量呈现出爆发性的增长。如今,大数据集以及超大数据集的存储和处理已成为很多企业面临的新的挑战,相应地基于数据处理的应用受到广泛关注。Hadoop是一种针对大数据存储与处理的开源分布式计算平台,它实现了HDFS(分布式文件系统)和MapReduce编程模式,能够批量处理大规模数据。但它们主要是为离线数据设计,并不能够对在线数据流进行处理。此外,随着智能终端的普及,如今互联网已经逐渐变化成移动互联网,用户可以随时随地地接入互联网。流式数据的规模量逐步增长,内容和服务的实时性也变得重要起来。这将对实时计算能力提出更高的要求,因此产生了分布式的实时计算平台如Storm o如同Hadoop代表离线数据的批量分布式存储与处理,Twitter公司开源的Storm代表在线数据的实时流计算系统,且保证了分布式、容错。此外Yahoo!的S4、加州大学伯克利分校的Spark、Facebook的Puma等也是当今比较流行的实时计算框架。但这些实时计算框架只专注于实时计算,没有提供数据源的接入服务,并且用户不仅要搭建部署这些框架,还需要学习对应的开发语言或者接口调用,学习成本高降低了业务需求的处理效率本文设计实现了一个分布式、可扩展的在线数据处理平台架构,并实现了一个系统来提供数据的存储服务以及统计服务。用户能够从底层开发中解绑,只需要关注自己的业务逻辑,让开发在线数据处理任务更加便捷。系统基于Hadoop平台,采用Storm作为实时计算框架,为在线任务的执行提供了外部环境。并且采用KeyValue数据库HBase作为主要的存储方式,使得系统在高并发的情况下仍然能够稳定服务。此外,系统为用户提供了统一的通信规则,用户可以根据这套规则对业务处理逻辑进行自定义,大大提高了用户的效率。