论文部分内容阅读
随着互联网的飞速发展与广泛普及,异常流量的种类和数量同样与日俱增,异常流量检测作为计算机系统和网络安全领域的重要组成部分,已经成为当今信息时代的研究热点。基于机器学习的流量分类是异常流量检测方法中研究最为广泛的一类,但是如何设计并提取可以实现对流量特征进行准确描述的相关特征集是当前研究中面临的主要问题。相比较于传统的机器学习,深度学习无需人工设计与提取特征集,为流量分类与异常检测发展带来了新的契机。因此,本文基于深度学习对流量分类与异常检测问题展开研究,主要研究工作和创新如下:(1)优化与构建网络流量数据集。在基于机器学习的流量分类与异常检测方法中,数据集是分类模型的训练基础,对于验证分类方法是否有效,数据集的质量起到关键的保障作用。研究发现,当前的公共数据集普遍存在数据冗余、数据类型陈旧和数据分布不平衡等问题。为解决这些问题,本研究对公共数据集进行优化并构建网络流量数据集。首先通过数据清洗、过采样等技术手段对公共数据集进行优化;其次,从流量数据采集、数据标记和数据平衡等方面,系统化地构建了大规模流量分类数据集TJUTC(Tianjin University of Technology Dataset for Traffic Classification)与异常流量数据集TJUTD(Tianjin University of Technology DDo S Dataset)。与现有数据集相比,TJUTC数据集和TJUTD数据集在数据量、流量种类和可拓展性等方面具有较大优势,同时发布部分数据集供研究者使用。在本文提出的方法中,使用公共数据集和构建的新数据集作为分类模型的训练依据。(2)针对基于传统机器学习流量分类方法特征设计与提取复杂的问题,提出了基于Netflow与DNN(Deep Neural Network,深度神经网络)的流量分类方法。该方法使用Netflow记录作为流量分类依据,通过深度神经网络对Netflow数据进行深层次组合特征的挖掘,自构造网络流量特征集,实现特征集的自动设计与提取。首先,利用Netflow记录格式统一并且易于收集的特点,提取基本的网络流量特征;其次,使用深度神经网络对流量特征进行深层次挖掘,通过非线性数学变换构造流量特征集;最后,通过多项实验讨论了DNN结构对于分类效果的影响,确定DNN模型结构。同时在三种分类器对比和两个数据集上开展了实验验证,实验结果证明,相比较于其他机器学习方法,该方法在分类的查全率、查准率和1值上都有显著提高。同时,采集实际的校园网络流量进行分类实验,取得了较好的分类效果,尤其是对P2P流量识别的准确率达到99%,证明了该方法在实际网络管理中同样具有研究价值。(3)为了解决加密流量分类问题中流量特征集难以提取的问题,提出了基于CNN(Convolutional Neural Networks,卷积神经网络)与SAEN(Stacked Autoencoder Networks,栈式自编码网络)的加密流量分类方法,该方法使用了流量统计特征与空间特征相结合的混合特征集构造方法。首先,将原始流量数据转换成尺寸相同的流量图,使用CNN提取流量图的高层次空间特征,但是流量图转换过程中会造成部分流量信息缺失,影响分类效果;其次,使用SAEN对流量统计信息进行降维,提取降维特征作为补充特征组成混合特征集;最后,使用混合特征集对加密流量进行分类。使用该方法在多个数据集上进行实验,结果表明该方法分类的平均查全率高达97%以上。同时在实际的校园网络流量中进行实验,分类的平均查全率超过98%,符合实际应用需要。(4)在研究内容(2)和(3)的基础上,为了提高异常流量检测效率,从两个方面开展工作:一是结合基于统计的异常流量检测方法;二是优化深度学习模型,减少模型的训练与分类时间。基于此,提出了一种新型的基于混合方法的异常流量检测机制HESS(A Hybrid Method of Entropy and SSAE-SVM,HESS)。HESS是一个包括了数据采集、异常流量检测与攻击防御为一体的异常流量检测机制。HESS使用的异常流量检测方法包括了基于信息熵的初检方法和基于SSAE-SVM(Sparse Stacked Auto Encoder-Support Vector Machine)的深度检测方法。在基于信息熵的初检方法中,通过计算小时间尺度下包单元内流量特征的信息熵值,定义置信区间完成对攻击流量的初步检测。尽管该方法具有较高的误报率,但是作为初检方法能够有效的提高异常流量检测速度。在基于SSAE-SVM的深度检测方法中,创新性的将SSAE与SVM相结合,SSAE对流量特征进行有效降维,SVM根据降维特征进行流量分类。实验结果表明,HESS在保持了异常流量检测的高识别率、高准确率和低误报率的基础上,有效的降低了计算复杂度,减少了检测时间,同时能够进行有效的攻击防御,是一个完善的异常流量检测机制。