论文部分内容阅读
为了对移动互联网进行更细粒度的网络管理,流量识别和检测技术被广泛应用,其根据应用类型的不同可将网络流量划分成不同的类。流量识别有很多实现的技术,如基于端口,基于载荷,基于主机行为的识别方法。在这其中,机器学习法由于它较高的准确率得到人们的广泛关注。特征选择为机器学习法选择最优特征子集,其对算法的准确率和效率有非常大的影响。为了获得最优特征子集,往往需要对所有可能的特征组合进行测试。当特征数过多时,特征选择将会耗费大量的时间和计算资源。本文首先简单介绍了流量识别的相关技术,对机器学习分类算法和常见特征选择算法进行了概括和比较。在此基础上提出两种新的特征选择法:1、基于C4.5决策树的组合树算法。该算法主要利用了C4.5算法的结构特性,在没有实际训练和测试分类器前,可以排除原始特征集中的一些冗余属性。2、基于SVM-Wrapper与粗糙集相结合的RSF算法。基于粗糙集的属性约简方法简单易用,但当特征数过多时,计算量则会指数级增长。而本文所提出的RSF算法首先通过SVM-Wrapper对原始特征集进行初步约简,在此基础上再使用粗糙集进行属性约简,可以解决属性约简过程中特征数过多所引起的计算量过大的问题。通过实验和仿真,证明这两种方法可以大大减少特征选择过程中所耗费的时间和计算资源,所获得的特征子集也为最优特征子集。