论文部分内容阅读
随着互联网的飞速发展,网络安全已经逐渐成为当今人们所密切关注的焦点话题。与此同时,网络安全管理、未知协议分析与网络攻击分析的需求也日益增长。网络流量分类作为上述需求的基础,其重要性也就不言而喻了。传统的基于端口号的协议分类方法已经不适用于今天的网络环境,而基于有效载荷的协议分类方法与基于主机行为的协议分类方法则不能适用于未知协议的情况,因此越来越多的研究者着手于基于机器学习的协议分类方法。为了对未知协议进行分类,因此又引入了基于无监督学习的协议分类方法,而传统的基于无监督学习的协议分类,大都结合基于流统计的特征提取方法使用。基于网络流进行特征提取相比于对数据包提取特征具有更好的效果,其可以获得特征数量更多,且更不容易出现漏报。但是对于一部分协议而言,这种基于流统计的特征提取方法也不具备足够的通用性。本文提出了基于网络流量的自动化协议分类(APD)方法,使用了一种更通用的特征提取方法,从而可以更好地识别各协议,并且同样适用于未知协议的情况。本文使用类似图像处理的方法对流特征进行提取,将特征提取方法从传统的对流进行统计变为了对图片进行奇异值分解。同时在分类策略上结合了聚类模块与分类模块两个部分,分类模块实现对已知协议的识别与过滤,聚类模块则是对未知协议进行更细粒度的分类。另外,通过对聚类结果进行训练,达到动态增加可识别协议类别的目的。在系统实现时,增加了两个反馈模块,对聚类结果与新协议识别插件进行校验,提高系统分类准确率。最后通过实验,说明了基于会话流图像的特征提取方法具有更强的稳定性与通用性,可以适用于各种类的网络协议,从而可以得到更好的协议识别效果。且APD方法适用于存在大量未知协议的情况,可以在无先验知识的情况下对协议进行分类。