论文部分内容阅读
P2P(Peer-to-Peer)技术广泛应用于文件共享、流媒体、即时通信等领域,在带来便利的同时也带来许多负面影响,如大量占用网络带宽资源、知识侵权和网络安全等问题。因此,如何解决P2P技术所带来的问题成为P2P流量识别研究的动机。 鉴于许多P2P应用采用动态端口、协议加密等新技术,导致早期基于端口识别和应用层协议特征指纹识别法存在某些局限。相关文献直接从P2P网络技术本身特点出发,挖掘内在特征进行流量识别,如网络拓扑直径、端口连接和协议分析等,但其所建立的模型较复杂、效率不高。在此背景下,基于流量的统计特征依托机器学习的方法进行P2P流量识别成为新的研究点。本文从P2P流量产生环境入手,归纳三个方面的研究问题并用机器学习理论技术解决:一是在P2P流量识别时,如何解决标注样本数量不平衡和多分类问题;二是由于网络时空环境变化的影响,在P2P流量识别时如何解决概念变化问题;三是在网络环境下对样本进行标注费时费力,如何利用大量非标注样本信息提高P2P流量识别模型的准确性。本文主要贡献在于: (1)通常情况下流量样本在特征空间分布呈现出类内紧密、类之间远离的特点,基于此特点本文实现一种基于支持向量数据描述(Support Vector Data Description:SVDD)的P2P流量识别模型。该模型首先在标注样本集合上用支持向量数据描述方法寻找各类样本的最优超球,选取最优超球的支持向量样本信息作为识别模型基础;然后计算待分类样本与各超球球心距离,建立决策规则即待分类样本类别与最近超球类别一致。该识别模型较简单,适合多种网络应用流量识别环境,能够解决标注样本数量不平衡问题,且避免了传统基于聚类的识别方法在初始参数难以确定的问题。通过对P2P类别样本的召回率和精度实验数据分析可知,识别模型对于P2P流量样本的识别具有较高的可靠性,而且此识别模型也拥有较高的整体分类准确率。 (2)鉴于网络环境和网络应用分布具有动态特点,在P2P流量样本产生过程中存在概念漂移现象,这使得传统的静态识别模型准确率不高。通过对概念漂移出现的原因和集成学习理论分析,设计了一种具有概念漂移检测功能的多分类器动态集成流量识别方案,此方案包括概念漂移检测和分类器动态集成两大模块。运用卡方统计推断方法实现连续数据块之间概念漂移检测,在此基础上根据基分类器性能好坏动态更新集成模型,包括基分类器的添加与删除及基分类器的权重信息修改。在实验过程为验证相应的研究目标,分别以贝叶斯分类器、支持向量机、决策树作为基分类器,针对不同集成规模、数据块大小进行仿真实验,实验数据表明设计的方案可行,能够检测出流样本中出现的概念漂移,并能对集成模型作出及时调整,模型的识别准确率达到82%以上。 (3)为提高P2P流量识别模型的推广能力,在监督式训练过程需要较多的标注样本信息。在网络中进行样本标注费时费力,相反获取无标注样本简单方便而且样本数量较多,因此本文利用主动学习理论解决上述问题。在主动学习时需要计算样本不确定性值,当未标注样本数量较多时需要占用更多的资源,而且在选择未标注样本时,容易出现不平衡学习现象,导致识别模型的准确率不高。针对上述两个问题,本文首先采用支持向量数据描述结合样本分布特点,对未标注样本进行预处理,仅保留有价值的未标注样本进行后续主动学习;结合分类器对未标注样本的预标注信息,实施平衡策略防止不平衡学习。仿真实验结果表明,主动学习方法能够解决P2P流量识别在少量标注样本的情况下,借助大量未标注样本信息辅助学习获得较好的识别模型。