论文部分内容阅读
近年来,我国互联网特别是移动互联网迅猛发展,截止到2012年6月底,中国网民数量达到5.38亿,互联网普及率为39.9%。网络流量监控成为运营商进行网络管理和运营的重要手段,但随着网络应用的多样化,网络流量的识别和分类面临重大挑战。使用何种或多种识别方法能够对网络流量进行精确的识别并保证低的误判率已经成为当前研究的热点。随着网络线速越来越高,网络流量数据量大小急剧增长,普通的分析方法已经无法满足海量的流量数据分析需求。Google提出的MapReduce编程模型成为了海量数据分析的重要方法,而开源的Hadoop分布式平台克隆了这一模型,并得到了学术界和工业界的认可,Hadoop已经成为分析处理海量数据的重要手段。本文首先介绍了网络流量识别技术,包括深度报文检测和深度流检测。随后还介绍了海量数据分析平台,特别是Hadoop系统以及它在流量分析方面的应用。在研究流量识别技术的基础上,我们研发了网络流量分析分类系统(Traffic Analysis and Classification System, TACS)。本文详细介绍了该系统的主要功能、整体设计方案和关键子模块的设计说明。为了分析海量的流量数据,我们研发了基于Hadoop的海量流量数据分析系统LogAnalyser,使得处理分析海量数据变得方便快捷。本文详细介绍了LogAnalyser系统的主要功能、整体设计方案和关键子模块的设计说明。最后,本文使用TACS和LogAnalyser分别对报文数据和流记录数据进行分析,研究ADSL和CDMA网络中P2P流媒体业务的流量特征和GPRS网络的业务分布及网络质量特征。