论文部分内容阅读
目前,基于P2P技术的互联网文件共享以及流媒体业务在促进互联网发展的同时也给网络的运营和管理带来了诸多问题和挑战,比如占用过多网络带宽资源、助长网络盗版行为等等。因此,如何对P2P类网络业务进行有效监测和分析已经成为当前互联网发展过程中急需解决的问题。
针对这一问题,本文作者设计并实现了一种能够对网络中P2P文件共享行为以及在线视频访问情况进行监测和分析的系统。该系统采用分布式架构,能够同时对多个局域网内的数据进行采集,并根据不同网络业务的相关特征,从网络数据流中识别出P2P以及在线视频等网络应用。为了提高对P2P网络业务的识别性能,该系统采用了一种根据已有检测结果不断提升协议识别效率的P2P协议识别算法。该算法结合了深度数据包检测方法和传输层流特征识别方法,利用简单特征以及过往数据进行网络业务识别,减少深度数据包检测的使用次数,从而提升了识别效率。
本系统不仅完成了对网络数据的采集以及对P2P网络业务的识别监测,还利用谱聚类算法完成了P2P网络社区发现的工作。相关实验显示,谱聚类算法可以有效发现网络连接图中的社区结构。然而,当网络连接图的规模较大时,谱聚类算法中拉普拉斯矩阵特征值和特征向量的计算对CPU和内存的消耗也非常巨大。为了计算大规模稀疏实对称矩阵的特征值和特征向量,本文作者基于IBM刀片服务器和MPI函数库实现了一种Lanczos算法的并行化方案。