论文部分内容阅读
随着新一代互联网技术在中国的迅速发展,互联网的规模不断扩大,业务类型不断增加。据统计,截至2010年12月底,中国网民规模达到4.57亿人,互联网普及率达34.3%。一方面,网络信息量的膨胀,使得网络流量呈现指数级增长的趋势,加剧了网络拥塞状况的发生,导致网络服务质量急剧下降,影响用户的满意度。另一方面,种类繁多的业务类型不但吞噬着越来越多的网络资源,而且给网络安全带来了巨大的威胁。为了能够更好的掌握网络中流量的行为状况,网络管理者需要对网络流量进行可靠、有效的监测与控制,并对网络所承载的各类业务进行及时、准确的分析。而实现这些的前提和基础是对网络流量进行快速准确的识别和分类。根据网络原理的知识,网络应用的一次交互生成的IP报文都具有相同的五元组(源地址,源端口,目的地址,目的端口,协议),反之,一段时间内具有相同五元组的IP报文一定属于同种应用类型。因此目前分类领域通行的做法是先基于五元组将IP报文聚类成流,然后基于流做分类。与早期基于报文分类相比,流分类大大降低了分类动作的次数;另一方面,流中包含更为丰富的信息。综上所述,本文研究基于流的快速分类技术。显著的分类特征和合适的分类器是影响流分类效果的两个主要因素,本文即从这两个方面展开研究。首先,研究了分类特征的问题,提出了ACK-Len ab和ACK-Len ba特征。其中,ACK-Len ab是指请求方在收到对方第一个ACK响应包之前所发送的数据长度的总和;ACK-Len ba是指响应方在收到对方第一个ACK响应包之前所发送的数据长度的总和。分析和实验表明,这两个特征具有典型性,利用它们做分类,具有良好的分类效果。同时,这两个特征的计算仅用到流中前几个数据包的大小信息,能够在流到达初期就对其进行分类,同时该方法仅需存储前几个包的数据信息,因此大大节约了机器的存储空间,为实现真正在的在线分类提供了新的思路。其次,研究了分类器的问题。直觉上,特征数越少,分类时要做的判定和计算动作就越少。因此,基于特征约简和传统分类方法相结合建立分类器的思想,提出基于粗糙集的快速流分类方法。该方法是首先使用粗糙集算法对数据集进行特征约简,然后在约简的特征集上采用贝叶斯网络建立分类模型。实验表明,粗糙集方法与贝叶斯网络相结合可以达到最佳的分类效果,且在约简后的特征子集上进行分类,分类器在分类速度和分类精确度方面都有了很大的提高。