论文部分内容阅读
近年来,P2P网络凭借其对等、自由、开放的特性在互联网的诸多领域呈现出蓬勃发展的态势,已经成为Internet网络流的主宰流量。P2P网络技术的发展给一方面给网络安全带来更大的威胁,另一方面,庞大的P2P流量吞噬而着网络带宽,使得非P2P网络的带宽得不到满足,给网络运营以及网络管理者带来全新的挑战。通过P2P流识别技术来加强管理和控制P2P流量是解决该难题的研究方向之一。然而随着互联网技术的发展,P2P应用为了适应网络环境,越来越多的使用动态端口、隧道技术以及协议加密等技术,这使得传统的利用端口和应用层特征等识别技术无法满足P2P流识别的要求。随着机器学习理论的不断成熟,其在医疗诊断、图像识别、音频识别以及网络安全领域的应用越来越广泛。机器学习利用数学统计知识和算法理论建立有效的学习模型,从数据层面挖掘内在规则,对信息量要求不大、不会涉及用户隐私,而且能够应对动态变化的数据环境,所以机器学习方法非常适合识别具有动态性的P2P网络流。本课题主要研究基于机器学习的P2P流分类方法,基于机器学习的P2P流识别利用P2P流统计特征建立分类模型,一方面如何从大量的P2P流统计特征中选出高效的特征集对于分类模型的分类效果有着深刻的影响;另一方面,如何建立分类模型也是最终分类效果的关键,本文主要内容如下:1.由统计原理建立的P2P流数据拥有上百个特征,面对如此众多的特征,在ReliefF的基础上提出了一种改进算法ReliefF&特征选择,能够删除ReliefF中的冗余特征,不但降低了特征维数,而且能提高特征集的分类能力。2.对集成学习算法的研究中,比较分析了AdaBoost和Bagging集成学习的优劣,在Bagging的学习的基础上引入了选择性集成理念,基于分类器之间的差异性度量Q统计量设计了通过不断删除差异性最小的分类器来选择部分分类器集成的PBagging算法。基于决策树算法作基分类器,进行实验验证,发现PBagging能够提升Bagging的分类正确率,在不同分类器规模下,PBagging都能表现出比Bagging更高的分类准确性。3.研究不同类型的分类器集成,提出了一种由贝叶斯分类器、SVM、决策树这3种分类器构成的集成模型,通过相关网络流数据进行实验发现该集成算法的分类正确率显著高于每个参与集成的单个分类器。本文的研究成果能有效提高特征选择的可利用价值,结合改进的集成学习算法能够进一步提高P2P流的识别率,对于P2P流的分类提供了全新的解决方案,将促进P2P流的管理和控制,也有助于建立更加可靠安全的互联网环境,进而营造和谐的网络氛围。