论文部分内容阅读
随着互联网的快速发展,和新型网络应用的快速部署,IP网络规模呈指数式扩张,网络业务呈爆炸式增长。IP网络已演变成为目前这样一种高度异构、开放的复杂系统。网络中的非关键业务流量的泛滥导致网络的带宽资源被大量地消耗,影响了其他关键网络业务的正常运行。为了更好的进行网络规划、网络设计、网络监控、路由优化、流量检测、负载均衡和网络故障诊断等网络管理任务,迫切需要掌握网络流量方面的信息。网络流量数据通常被排列为多维阵列(multidimensional array)的形式(例如,矩阵和张量)。在给定的测量采样时间周期内,网络中所有从源节点传输到目的节点的流量形成一个二维矩阵。随着采样时间的演化,即多个采样周期,网络流量数据形成一个三维阵列。流量矩阵(Traffic Matrix,TM)描述网络中所有源目的(Original-Destination,OD)节点之间流动的流量,它是流量工程,容量规划,异常检测等网络工程任务的关键输入参数。然而,尽管流量矩阵很重要,但是获得精确而完整的流量矩阵通常很困难或甚至不可行。由于数据收集成本驱动的预算约束,海量数据存储设施的过载,流量测量系统本身的缺陷和数据收集系统可能的失败,大规模网络的流量测量经常有大量的数据丢失。如何处理经常出现在流量测量中的丢失数据一直是个挑战。 最近几年,压缩感知技术、矩阵填充理论、张量填充方法和张量恢复方法取得了广泛的应用。现有的解决方案在网络流量推断方面恢复性能较差,其主要原因是在真实网络环境中,流量数据的丢失模式具有结构化、非随机性。这些特征违反了这些方法被设计运行和证明是最佳的数学条件。当数据丢失率高的时候,它们的恢复精度往往会显著降低。为了克服上述的困难,本文利用流量模型,流量数据的多线性结构及流量时空特征,针对多数据源、测量误差、流量异常等情况,围绕以提高恢复精度为主要目标对网络流量推断方法展开深入研究。从基于二阶流量矩阵推断方法到基于三阶流量张量推断方法,所取得的主要研究成果有: 1.基于压缩感知和流量时间稳定性、空间自相似特征,提出了一种空间自相似和时间改进的压缩感知算法重构流量矩阵。为了减小流量数据的恢复误差,本工作首先对真实流量数据进行了深入的研究与分析,揭示出流量矩阵具有三个特征,即低秩结构,时间稳定性特征,空间自相似特征。然后,基于流量矩阵这些特征,提出了一种空间自相似和时间改进的压缩感知算法重构流量矩阵。该方法综合使用部分测量的NetFlow数据和SNMP链路负载这两种数据源。最后,使用真实的流量数据集开展大量实验对所提出的算法进行重构性能评估。实验结果表明该算法能够精确恢复丢失的流量数据,即使当98%的数据丢失,流量矩阵能以约32%的误差重构。 2.基于流量矩阵的多高斯模型,提出了一种贝叶斯方法的流量矩阵填充算法推断丢失数据。为了精确恢复丢失的流量数据,本工作首先在真实流量数据分析的基础上,揭示出流量具有时空特征,即时间稳定性特征、空间相关性特征。然后,基于流量空间相关性特征,建模流量矩阵为多高斯模型。接着,受贝叶斯推断的启发,提出了一种新的多高斯模型贝叶斯流量矩阵填充算法。该算法考虑了流量测量误差,并建模误差为高斯模型。最后,利用流量时间稳定性特征,进一步优化流量矩阵填充结果。实验结果表明,所提算法能够精确恢复丢失的流量数据,即使当98%的数据丢失,数据的恢复误差小于24%。 3.基于流量张量模型和张量分解的因子矩阵的低维表示,提出了一种时空张量填充算法推断丢失数据。为了精确恢复丢失的流量数据,本工作建模流量数据为流量张量模型。通过利用张量CP分解及其因子矩阵的低维表示,并引入时空单维因子正则化,提出了时空张量填充算法估计丢失的流量数据。该问题被阐述成为一个凸优化问题。基于交替最小二乘法,求解得到张量的因子矩阵,并重构出流量张量。使用真实的流量数据集开展大量实验对所提出的算法进行恢复性能评估。实验结果表明该算法能够精确恢复丢失的流量数据,即使当95%的数据丢失,流量张量能以约20%的误差重构。 4.针对网络流量数据丢失和网络流量异常情况,提出了一种鲁棒时空张量恢复算法推断丢失数据。由于测量系统的缺陷和在网络中发起的攻击,比如,拒绝式服务攻击,蠕虫扩散和突发攻击流,流量数据丢失和网络流量异常不可避免。本工作利用时空性质正则化张量分解过程来恢复丢失的数据和去除异常。首先,为了完全利用流量数据的多线性结构,张量被引入建模时间序列的空间流量矩阵,这样不仅保存了流量数据的多维性而且从高阶的视角能更好地理解信息背后的关系。然后,通过利用流量的时空特征,提出了一种新的鲁棒时空张量恢复方法处理丢失数据和异常,并把该问题阐述成为一个用交替方向增广拉格朗日求解的凸优化问题。最后,用真实流量数据集对所提出的算法恢复性能进行评估与分析。实验结果表明,与目前的恢复算法相比,该算法在流量数据高丢失率和严重损坏的情况下更鲁棒更高效。 综上所述,本文充分利用网络流量行为,流量内在多维性和流量时空性质,研究网络流量推断技术来获取精确而完整的流量信息,并提出了两种基于流量矩阵的推断方法和两种基于流量张量的推断方法,以满足流量工程、容量规划、异常检测等网络管理任务的需求。