论文部分内容阅读
网络流量特征选择方法是决定分类器差异性设计的关键,能够提高分类结果的可理解性,发现高维数据隐藏的结构;高效的流量分类有助于网络态势分析与动态访问控制,是实现网络管理、流量控制以及安全检测的重要环节;特征选择和流量分类方法应相互支撑,相互促进。针对传统有监督学习的流量分类方法不能发现未知的流量类别,无监督学习的流量分类方法分类精度较低的不足,利用半监督学习同时兼具有监督信息和无监督信息的优势,提出基于半监督学习的网络流量特征选择与分类方法,解决现有方法监督信息缺乏,多分类器泛化能力有限等问题。论文的创新性工作主要包括以下几个方面: (1)针对大量冗余特征制约网络流量分类性能提高的问题,提出一种基于混合约束的半监督网络流量特征选择方法。该方法采用结合成对约束和无标记样本的特征评价方式,快速去除不相关特征,并通过利用基于互信息的特征相关性过滤剩余特征中的冗余特征,使有监督信息和无监督信息在网络流量的特征选择过程中以不同的方式发挥作用。实验结果表明,该方法能以有效混合约束特征获得更好的网络流量分类性能。 (2)针对网络流量特征选择过程中监督信息缺乏的问题,提出一种基于成对约束扩展的半监督网络流量特征选择方法。该方法利用样本集合间的相关性和自相关性,同时考虑少量成对约束和大量无标记样本,扩展成对约束集到无标记样本上,以揭示样本空间分布信息。实验结果表明,在监督信息有限的情况下,扩展的成对约束仍具有较好的可靠性。 (3)针对传统网络流量分类方法准确率低、开销大的问题,提出一种基于支持向量机的半监督网络流量分类方法。该方法在支持向量机训练中,利用大量未标记和少量已标记样本对分类器进行反复修正,并使用增量学习技术避免不必要的重复训练,改善因新样本导致原分类器分类准确率降低、分类时间长的情况;同时,利用多分类器的协同优势,改进 Tri-training方法,克服传统协同验证对分类算法及样本类型要求苛刻的不足。实验结果表明,该方法可明显提高网络流量分类的准确率和效率。 (4)针对多分类器集成在泛化能力方面的局限性,提出一种基于多分类器选择性集成的半监督网络流量分类方法,该方法从基分类器的精度和基分类器间的差异性出发,剔除相关性和冗余性较大的基分类器,解决多分类器的选取问题。设计并实现了基于该方法的网络流量多分类器选择性集成模型,详细设计了流量采集、流量解析、特征分析和流量分类模块,从整体上提高选择性集成的预测性能。实验结果表明,提出的方法及模型能充分利用基分类器间的互补性,具有良好的泛化性。