基于低秩分解的网络数据采集与异常检测

来源 :湖南大学 | 被引量 : 0次 | 上传用户:llww6
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络的快速发展,网络规模也越来越大,这给网络测量与网络异常检测带来了不少的挑战。一方面,网络性能数据是网络异常检测的基础,而获取网络性能数据的关键在于网络测量技术。传统的网络测量技术常针对节点规模为n的实际网络,获得全网的性能数据代价通常需要O(n2),当网络规模较大时,通过现有的测量方法进行网络测量显然是不切实际,且网络性能数据具有连续性,针对全网性能数据进行连续测量不仅需要较大的通信代价,且无法满足时效性。另一方面,随着网络规模的不断扩大以及网络应用的持续深化,网络攻击的危害性越来越大,威胁到网络的正常运行,严重时,大规模网络攻击(如分布式拒绝服务攻击DDoS(DistributedDoS),大规模蠕虫Worms爆发等)会给网络带来灾难性后果,而传统的网络异常检测技术存在精度与速度问题。为了降低网络测量的代价以适应大规模网络;加快网络异常检测速度以满足网络管理的实时性;提高网络异常检测精度以使得网络管理更高效。本文通过对低秩分解技术进行深入研究来解决上述挑战,并取得以下主要研究成果:
  1、基于二分图矩阵填充建模的网络测量调度算法
  为了降低网络测量代价,本文提出了一种基于二分图矩阵填充建模的网络测量调度算法,通过少数测量数据推测出其余未测量数据。不同于传统的测量方法,所提方法将网络数据建模成为矩阵模型,并提出基于矩阵填充技术来实现推测任务。为了能够降低冗余测量,以确定测量的位置以及测量的停止条件,提出将矩阵填充问题用二分图进行建模,并基于二分图模型提出两种测量调度策略,以保证二分图各节点度大于等于网络数据矩阵的秩,来确保网络性能数据能够准确推测的条件;以及利用余弦夹角来选择非病态线性方程组从而确认测量位置。为了进一步降低测量代价,提出将各测量位置的测量代价转化为二分图边权,并将其加入测量调度的决策中。通过实验表明,所提算法能够实现低代价高精度的网络测量。
  2、基于矩阵分解重用加速的网络异常检测算法
  由于现有的异常检测算法通常需要较高的计算代价,因此,并不适用于大规模网络数据处理。为了让异常检测算法更适用于大规模网络数据处理,本文提出了一种基于矩阵分解重用加速的网络异常检测算法。首先对基于矩阵恢复的异常检测算法进行深入研究,发现造成矩阵恢复算法计算代价过高的原因在于,低秩恢复过程中涉及到的奇异值分解过程。为了解决这一问题,本文提出基于轻量级矩阵恢复算法的大规模网络异常检测方法。通过前期针对真实数据集实验发现,矩阵恢复算法定位到的异常位置能够快速确定且不发生变更。基于此,本文通过重用上一轮迭代过程中的奇异值分解的结果,来降低当前迭代过程中的计算代价,以实现快速的异常检测,并使得传统的异常检测算法更适用于大规模网络数据处理。通过实验表明,所提算法不仅能够在保证矩阵恢复算法的异常定位精度,同时能够大大降低计算开销。
  3、基于连续截断高阶张量分解的网络异常检测算法
  由于现有的网络异常检测算法通常将数据建模为矩阵模型,从而导致其无法充分利用数据内部的高阶结构化信息而损失检测精度,为此,本文提出了一种基于连续截断高阶张量分解的网络异常检测算法。该算法通过将网络性能数据建模为三阶张量模型以学习数据内部蕴含的高阶结构化信息。另外,基于张量模型的低秩分解方法计算代价过高,并不适用于大规模网络数据处理。因此,本文提出使用一种连续截断的高阶奇异值分解方法来降低异常检测算法的计算代价,并通过调度截断顺序实现了计算代价的进一步降低。另外,本文提出针对异常检测问题使用非松弛的约束,通过将基于张量模型的数据分离方法转化为两个子问题进行迭代求解,以提高网络异常检测与定位的精度。通过实验表明,所提算法相较于基于矩阵模型的算法以及凸松弛算法在精度上有较大提升,同时,比传统的张量分解算法计算代价更低,更适用于大规模网络数据处理。
  4、基于双向二维PCA的在线网络异常检测算法
  传统的网络异常检测常通过数据分离的方法实现,而这类方法的计算代价过高,且需要迭代进行,因此不适用于在线实时报警。为此,本文提出了一种基于双向二维主成分分析方法的在线异常检测算法。与传统的PCA方法不同,为了能够充分挖掘网络数据特征,本文提出一种双向二维主成分分析方法来判断新来临的数据是否为异常数据。另外,由于网络管理通常需要针对流数据进行在线处理,因此,本文提出一种增量更新的方法来更新主成分向量,以快速地更新整体数据的主成分方向,从而实现在线网络异常数据告警。最后,提出一种数据增强的办法,加强新来临数据对整体数据的影响,从而保证异常检测的精度。通过实验表明,所提算法完全可以满足网络在线运维的实时性,同时又能够保持较高的异常告警精度。
  5、滑动窗口模型下基于张量分解重用的网络异常定位算法
  对于实际的网络运维任务,通常需要对发生异常的网络位置进行实时定位以保证网络的可靠性。为此,本文将网络监测数据建模为滑动窗口模型,以保证数据有效性的同时降低处理数据的规模。另外,传统的异常定位方法通常针对网络离线数据进行设计,通常将网络数据分离为正常数据与异常数据,这类算法不仅计算代价高,而且需要较高的存储需求,并不能够满足网络控制中心的在线需求。因此,本文提出了一种在线张量恢复算法,针对新时刻数据来临后的首次迭代以及后续迭代,设计了不同的CP分解算法,通过充分重用上一时刻所求因子矩阵,与上一轮迭代过程中所求因子矩阵来降低计算代价,成功实现了在线的网络异常定位。通过实验表明,所提算法不仅能够在保证与离线算法具有相似异常定位精度,同时能够大大降低计算开销以满足实时性要求。
  6、基于流形学习的网络异常检测算法
  由于网络监测数据张量除了多元线性关系外,还存在非线性关系。例如,每个时刻的网络流量数据,反映了同一个网络拓扑下不同时刻下流量情况。这些流量的走向与大小是由多方面的因素决定的,如工作日,节假日,上班时间,休闲时间等因素。为了能够整合并利用网络监测数据中的非线性关系以提高检测精度,本文提出了基于流形学习的网络异常检测算法,在传统的张量恢复算法中加入非线性约束条件以学习数据内部的非线性特征。并提出一种基于局部敏感哈希的方法来进行数据聚类,不同于传统的KNN聚类方法,这种方法能够规避KNN中固定K个邻居带来的误差,同时,能够降低聚类过程的计算代价。通过实验表明,所提算法能够取得相较于传统线性算法模型更高的异常检测精度。
其他文献
随着车载GPS设备的大量安装和普遍使用,人们可以方便的获取海量车辆轨迹数据。这些轨迹数据集可潜在反映城市路网、人类出行行为以及城市交通动态等等,由此吸引了大量研究人员使用各种数据挖掘技术力求从这些数据中提取有价值的信息,为城市规划、智能交通、环境保护以及生物病毒传播遏制等领域实现许多创新应用。本文以私家车轨迹数据集为基础,研究了一种新的路网推理机制,据此挖掘和分析了个人出行模式、人群整体出行模式和城市间人群交互特征。
  路网是导航、辅助驾驶以及自动驾驶技术必不可少的一部分。车辆的GPS轨迹可反映潜
随着经济的持续快速发展,中国汽车保有量的持续增长与有限的城市道路资源之间的矛盾日益加剧。在汽车保有量中,私家车所占比例尤为突出。在中国,据公安部的统计,截至2019年12月31日,中国汽车保有量已增加到2.6亿辆,与2018年底相比,增加了2122万辆,增长比为8.83%。随着汽车的持续增加,将进一步加剧城市交通拥堵等问题。随着定位技术,信息处理和数据挖掘等技术的发展,为获取私家车大规模的轨迹数据带来了便利。在当今的智能交通系统中,大规模的车辆轨迹数据具有很高的利用价值。在大多数情况下,广泛使用的GPS(
与其他国家搞的多党制、两党制、一党制不同,中国实行的是中国共产党领导的多党合作和政治协商制度。这是一种具有中国特色的新型政党制度,与中国的国家性质及国情是比较吻合的。  中国政党制度模式选择   在当代中国,除中国共产党外,还有八个民主党派。这些党派诞生于20世纪三四十年代,并从一开始就与中国共产党建立了互济互助的合作关系。   中国共产党在领导新民主主义革命走向胜利的伟大斗争中,确立了在中国各种
期刊
忆阻器具有非易失性,能很好地模拟神经突触,从而被广泛地运用于神经网络中。基于忆阻器的良好特性,用忆阻器替换传统神经网络电路模拟中的电阻可以构建新型神经网络,即忆阻神经网络。因为同步、多稳定性等动力学行为在安全通信、图像加密、联想记忆存储等领域具有广泛的应用前景,从而忆阻神经网络的同步及多稳定性受到国内外学者们密切关注。此外,不同的忆阻神经网络模型也有不同的应用场景,如二阶忆阻神经网络中引入的惯性项通常是产生更加复杂的分叉与混沌行为的一个关键因素。由于忆阻神经网络在电路模拟过程中,放大器等元件不可避免的存在
习近平总书记在中央党校(国家行政学院)中青年干部培训班开班式的讲话中指出,凡是有利于党和人民的事,我们就要事不避难、义不逃责,大胆地干、坚决地干。这一重要指示,就要求新时代党员干部要有新担当新作为,以行动彰显实干、以实干扛起担当,干出一番事业、擎起一片蓝天。   要有忠诚于党的坚定信念。要让群众看得出,就要有坚定的理想信念,矢志不渝的事业追求。不可否认,现实中有的党员信仰发生偏移,不信马列信鬼神,
期刊
手绘草图是一种简洁且高效的表达方式,在人类社会漫长的发展中扮演着重要的角色,方便了人们交流和信息传递。现代社会中,手绘草图被广泛用于设计创作领域,比如动画卡通、建筑设计、服装设计等。然而,现有的计算机辅助设计系统需要人们在完成手绘草图创作之后,继续对该草图进行手工的语义标注操作,这是由于计算机还不能准确地解释手绘草图中人们表达的语义信息。如何利用计算机实现自动且高效地对手绘草图进行精准地语义解析与识别,进而提升相关从业人员的工作效率,是一项极具意义和挑战性的前沿课题。
  手绘草图语义解析与识别任务
日益发展的高带宽应用导致接入网流量的爆炸式增长。接入网肩负着连接用户的使命,其通信速率制约了终端用户最终所能获取的带宽资源。结构简单、成本低廉的强度调制直接检测(Intensity Modulation Direct Detection,IM/DD)光通信系统很适合应用于对成本非常敏感的接入网中,先进的调制格式和相关的数字信号处理技术(digital signal processing,DSP)能大大提高光通信系统的传输速率。因此,通过研究适用于IM/DD光通信系统的先进调制和DSP技术来克服系统传输中的
中国式民主是一种全过程的民主,不仅需要完整的制度程序,而且需要完整的参与实践。在当代中国,人民当家作主具体地、现实地体现到中国共产党执政和国家治理之中,具体地体现在国家权力、司法机关运行之中,也具体地体现在人民参与社会治理和基层自治之中。可以说,在中国,国家治理本质就是民主治理。  中国共产党民主执政   在70多年的执政实践中,中国共产党形成了较为成熟的民主执政理念,探索出高效的国家治理模式。中
期刊
随着科学技术的进步和移动互联网的迅猛发展,高性能计算技术在工业界和科学计算等领域发挥着越来越重要的作用。鉴于这些应用领域中数据规模的爆发式增长,为了能够高效处理超大规模数据,亟需研究面向领域应用的高性能并行基础算法。
  当前我国超算系统的研制能力己居世界前列,研制的“天河”系列和“神威,太湖之光”异构并行超级计算机的峰值运算速度己数次位居世界第一。但现有的加速基础算法多为面向同构系统或单节点加速器而设计,缺乏能扩展到大规模异构并行计算系统、充分发挥异构系统计算效率的基础算法,难以为实际应用需求提供
作为一种有用的光谱检测手段,表面增强拉曼散射(Surface-enhanced Raman scattering,SERS)自1974年被发现至今,在大量研究人员的努力下,SERS已经发展成为一项较为成熟的技术。由于其具有高灵敏度(可用于痕量分子检测,甚至单分子检测),无损伤检测以及指纹识别的优点,SERS技术可以被应用于化学和生物传感,医学成像,环境和食品安全等领域。但是限制SERS技术广泛应用的主要挑战之一在于缺乏有效的SERS基底。因此,设计并合成高灵敏、均匀、高度兼容性的SERS传感器对此技术的实