论文部分内容阅读
历经多年发展,我国互联网已成为全球互联网发展的重要组成部分。截止至2013年6月底,中国网民规模已达到5.91亿,互联网普及率约为44.1%。在互联网高速发展的同时,所暴露出来的问题也日益突出。一方面,不断增加的用户数量和层出不穷的新兴业务,使得互联网流量数据激增,网络拥塞的情况日益频繁,对网络服务质量提出了更高的要求。另一方面,由于互联网体系结构的复杂化,使得对于互联网流量特性、用户行为特征、新兴业务的流量特征等问题都还缺乏深入的理解和精确的描述,从而严重影响了互联网的进一步发展和网络资源的有效利用。与此同时,由于网络流量的剧增,传统的流量分析方法已无法满足海量数据的存储和处理要求,需要引入更高效、更可靠的方式进行处理。而Hadoop正是一个能够对海量数据进行可靠的分布式处理的可扩展开源软件框架,并已经被应用于越来越多的研究领域。本文首先介绍了Hadoop的基本概念,包括Hadoop和HBase的工作原理。随后,在Hadoop技术的基础上,本文提出了网络流量处理系统的三层体系结构,将网络流量的采集、存储、处理和分析等独立的功能整合到一起,形成具备完整功能的网络流量处理系统。接着,本文对网络流量处理系统的数据层进行了重点研究。先后详细介绍了数据层的非实时组件——基于Hadoop的网络流量数据控制组件,以及实时组件——基于HBase的流记录控制组件。通过对这两个组件的研究,解决了海量网络流量分析领域中的一些重要问题。最后,本文以智能终端流量特征分析为例对网络流量处理系统的应用层进行了说明。