论文部分内容阅读
网络流量识别的目标是希望侦测目标网络的数据流,通过对数据流的分析发现该数据流使用的协议类型。当前的时代是信息技术的时代,信息技术的发展是人类历史上一次巨大的进步,尤其是网络的应用已经深入到生活的每个角落,越来越多的人的生活已经离不开网络了。若想有效地利用网络,对网络的使用必须注意考虑到各种问题,例如在架设网络时进行合理的规划部署,提前对网络使用中可能出现的问题采取措施进行预防,在网络部署完成后要把握网络的使用情况,对出现的问题要及时地进行排查,这些都涉及到网络流量识别技术。另外,随着网络的发展,它能提供的服务也越来越多,一些服务是需要计费的,而随着服务种类的增多,分业务计费正逐渐变成一种迫切的需求,网络流量识别技术能够帮助达到这个目的。而且,使用网络的人群数量逐渐增大,肯定会有很多危害社会安全和网络安全的因素存在,像恶意病毒、反动和色情内容等,要阻止这些内容的传播,更要进行网络流量的识别。因此,网络流量识别技术具有很重要的研究价值。目前,常见的网络流量识别技术有基于端口的识别技术、基于负载的识别技术和基于测度的识别技术。其中基于负载的识别技术具有较高的识别准确率,因而应用比较广泛。基于负载的识别技术实现的一个重要前提是获得协议的特征码,使用特征码来进行模式匹配,以此来确定网络流量,设计一套特征码提取系统对于实现基于负载的识别技术具有重要意义。以往的特征码提取工作大多是通过人工实现的,进行提取时的工作量很大。本文提出了一种基于GSP改进算法的特征码自动提取系统,给出了系统的设计方案和实现,并使用几种协议对系统进行了测试。本文首先介绍了网络流量识别技术的研究背景和目前常见的几种网络流量识别技术,并且重点对比说明基于负载的识别技术的优越性。而特征码提取作为基于负载识别技术的首要工作,是本文的主要研究内容和方向。之后,介绍了几种常见的协议识别方法:基于端口的识别技术、基于测度的识别技术和基于负载的识别技术,说明了各个方法的实现原理和特点,并对其准确性和识别效率做了分析比较,说明了基于负载的识别技术的优点和特征码提取技术对基于负载的识别技术实现的重要性。对常见的几种协议应用做了介绍,主要包括HTTP协议、SMTP协议、POP3协议和FTP协议。介绍这些协议的目的是为了明白协议工作的原理和典型的网络流量交互的流程,对它们的特征码有一个初步的了解。随后介绍了改进的GSP算法和涉及到的序列模式挖掘技术。主要是对GSP算法的基本概念、核心思想等做了说明,并对改进的GSP算法做了说明,提出了改进后算法的实现。给出了基于改进后算法的特征码自动提取系统的设计,介绍了系统的框架结构、各模块的设计实现和对数据的处理流程。并对HTTP协议、SMTP协议、POP3协议和FTP协议的特征码提取进行了测试,给出了测试结果和该系统的性能分析。