基于机器学习的P2P流量识别研究

来源 :南京航空航天大学 | 被引量 : 0次 | 上传用户:hbzhwyf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
P2P(Peer-to-Peer)技术广泛应用于文件共享、流媒体、即时通信等领域,在带来便利的同时也带来许多负面影响,如大量占用网络带宽资源、知识侵权和网络安全等问题。因此,如何解决P2P技术所带来的问题成为P2P流量识别研究的动机。  鉴于许多P2P应用采用动态端口、协议加密等新技术,导致早期基于端口识别和应用层协议特征指纹识别法存在某些局限。相关文献直接从P2P网络技术本身特点出发,挖掘内在特征进行流量识别,如网络拓扑直径、端口连接和协议分析等,但其所建立的模型较复杂、效率不高。在此背景下,基于流量的统计特征依托机器学习的方法进行P2P流量识别成为新的研究点。本文从P2P流量产生环境入手,归纳三个方面的研究问题并用机器学习理论技术解决:一是在P2P流量识别时,如何解决标注样本数量不平衡和多分类问题;二是由于网络时空环境变化的影响,在P2P流量识别时如何解决概念变化问题;三是在网络环境下对样本进行标注费时费力,如何利用大量非标注样本信息提高P2P流量识别模型的准确性。本文主要贡献在于:  (1)通常情况下流量样本在特征空间分布呈现出类内紧密、类之间远离的特点,基于此特点本文实现一种基于支持向量数据描述(Support Vector Data Description:SVDD)的P2P流量识别模型。该模型首先在标注样本集合上用支持向量数据描述方法寻找各类样本的最优超球,选取最优超球的支持向量样本信息作为识别模型基础;然后计算待分类样本与各超球球心距离,建立决策规则即待分类样本类别与最近超球类别一致。该识别模型较简单,适合多种网络应用流量识别环境,能够解决标注样本数量不平衡问题,且避免了传统基于聚类的识别方法在初始参数难以确定的问题。通过对P2P类别样本的召回率和精度实验数据分析可知,识别模型对于P2P流量样本的识别具有较高的可靠性,而且此识别模型也拥有较高的整体分类准确率。  (2)鉴于网络环境和网络应用分布具有动态特点,在P2P流量样本产生过程中存在概念漂移现象,这使得传统的静态识别模型准确率不高。通过对概念漂移出现的原因和集成学习理论分析,设计了一种具有概念漂移检测功能的多分类器动态集成流量识别方案,此方案包括概念漂移检测和分类器动态集成两大模块。运用卡方统计推断方法实现连续数据块之间概念漂移检测,在此基础上根据基分类器性能好坏动态更新集成模型,包括基分类器的添加与删除及基分类器的权重信息修改。在实验过程为验证相应的研究目标,分别以贝叶斯分类器、支持向量机、决策树作为基分类器,针对不同集成规模、数据块大小进行仿真实验,实验数据表明设计的方案可行,能够检测出流样本中出现的概念漂移,并能对集成模型作出及时调整,模型的识别准确率达到82%以上。  (3)为提高P2P流量识别模型的推广能力,在监督式训练过程需要较多的标注样本信息。在网络中进行样本标注费时费力,相反获取无标注样本简单方便而且样本数量较多,因此本文利用主动学习理论解决上述问题。在主动学习时需要计算样本不确定性值,当未标注样本数量较多时需要占用更多的资源,而且在选择未标注样本时,容易出现不平衡学习现象,导致识别模型的准确率不高。针对上述两个问题,本文首先采用支持向量数据描述结合样本分布特点,对未标注样本进行预处理,仅保留有价值的未标注样本进行后续主动学习;结合分类器对未标注样本的预标注信息,实施平衡策略防止不平衡学习。仿真实验结果表明,主动学习方法能够解决P2P流量识别在少量标注样本的情况下,借助大量未标注样本信息辅助学习获得较好的识别模型。
其他文献
随着计算机、通讯技术的不断发展,人们越来越迫切希望可以在任何时候、任何地点、与任何机器都可以自然交流,而语音通信则是一种最理想的人机通信方式,语音识别技术由此诞生
音字转换技术是建立在语言学、计算机科学、数学、信息论、人工智能等多个学科基础之上的一项综合研究,一直以来就是中文信息处理的研究热点,其最重要的应用之一就是中文拼音
随着互联网技术的飞速发展,网络为我们提供了多元化的海量信息,越来越多的人开始使用搜索引擎来获取所需要的信息。然而,虽然搜索引擎发展迅速,但其效果远未达到令人满意的程
对患者进行治疗是一个比较模糊的过程,它通常无法用一些准确的词语或数字来描述,这也是人们在看病时倾向于找有经验的医生的原因。然而由于治疗过程中病人的各项体征异常程度是
作业车间调度问题是制造系统设计中的一个重要问题。作业车间调度系统中,包括一个n个作业的工件集合和一个m台机器的设备集,其中每个工件包含一系列的操作,同时每个机器某一
船体下料是船体设计制造过程的最初环节,直接影响船体制造的钢材利用率,关系着造船企业的经济效益。本文以某船厂的船体型材零件自动设计为实际应用背景,通过型材下料图形系
随着XML的广泛应用,XML数据量呈指数级增长,如何高效地管理这些数据成为当前急需解决的问题。目前已有一些方法,如利用文件系统或传统的关系数据库系统来存储和管理这些数据
字符识别结果的可信度测定技术是基于模式识别系统的研究,能够比较准确地估计字符分类结果准确性的技术。课题研究的银行票据OCR(opticalCharacter Recognition)系统是一种专
计算机网络教学在高等院校的计算机教学中占有重要地位,如何进一步提高计算机网络课程的教学质量是高校教学改革所面临的问题之一。目前不少高校计算机网络课程的教学都主要
语音识别技术简单地说,就是让计算机能听懂人说话,将人说的话转换成计算机文本的一项技术。这将大大提高人们的效率,有着巨大的理论意义和实用价值。语音识别系统的关键在于如何