论文部分内容阅读
网络流量的日益激增和网络技术的持续发展给有效的网络安全管理和流量监管带来了巨大的挑战,而有效的网络安全管理和流量监管的前提是对网络流量的可靠识别。因此,如何准确、高效地识别网络应用流量成为当今计算机网络研究的热门研究课题。本文针对基于聚类的网络流量识别技术进行了研究与分析。本文对基于K均值的半监督学习网络流量识别方法进行了研究。基于传统K均值算法的流量识别技术,受限于无监督学习算法K均值算法自身容易陷入局部最优解导致聚类准确性不足的缺点,无法得到理想的流量识别效果。而K均值聚类算法的不足主要由无法确定最优聚类个数和不合理的随机选取初始簇中心造成的。因此本文主要从K均值聚类的这两个缺点出发,对半监督学习识别方法常用的K均值聚类方面进行改进,得到较优的流量识别方法。该算法基于密度的思想,通过在高密度区域选择初始簇中心来改进传统K均值算法的初始类簇中心选择问题,同时基于流量分布原理引入聚类效果判定函数对最佳聚类个数进行确定来改进最优聚类个数无法确定的问题。通过与基于传统K均值算法的流量识别做对比试验,验证了该改进算法在识别准确率方面具有明显优势。本文对在线流量识别方法进行了研究。针对于大多数现有的半监督学习网络流量识别方法需要提取对完整流的统计特征,只能在离线识别中应用的问题,本文对在线流量识别进行研究,结合早期流量识别和聚类技术提出一种在线流量识别方法。该方法结合早期流量识别技术在流量的前几个数据包组成的子流中得到易提取且对流量识别结果影响较大的的几种特征属性,解决在线流量识别无法提取所需统计特征的问题。同时,将在线流量识别分成训练阶段和在线识别阶段,预先在在线流量识别阶段完成对所要识别的应用类型数据进行初步聚类和映射来解决在线增量聚类无法将类簇映射到具体网络应用类型的问题。通过进一步实验,验证了该方法在处理性能和识别准确率方面具有不错的效果。