基于无监督学习的数据流异常检测技术研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:kuwaning
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年,伴随着互联网技术的迅猛发展和移动设备的不断普及,我们的生活已经迈入了大数据时代,在越来越多和人们生产生活息息相关的领域中,数据一改以前静态、固定的特点,转而被以数据流的形式源源不断的产生。然而流数据本身的特性(如缺少标签、持续到达、动态变化等)使得原本针对静态数据集的方法不能很好地应用于数据流环境下的异常检测,因此使用无监督学习的方法在海量流数据寻找异常数据是一项具有重大研究意义和应用价值的工作。然而,尽管目前有许多基于无监督的数据流异常检测方法,但这些技术都有各自的缺陷难以兼顾所有数据类型,它们往往只能在部分特定的数据集上发挥出较好的性能,难以完美地满足各种数据类型的实际需求。经过比较大量数据集的不同以及对比目前主流的方法在这些数据集上的表现,数据可大致分为维度之间相关性不大、无太多“噪音维度”的维度弱相关数据,以及数据维度间相关性较大、分布复杂且可能包含大量“噪音维度”的维度强相关数据。基于此,本文从数据的不同形式出发,设计出一个合理有效的数据类型识别算法。并针对不同数据的差异和处理需求,提出了两种适用于不同类型数据集的异常检测方法,且都在与同类方法的对比中取得了显著的优势。此外,本文还设计搭建了集这两种方法以及自动选择策略为一体的通用多类别数据流异常检测系统以实现对所有类型数据快速准确的进行异常值检测。由于目前基于无监督学习的数据流异常检测技术都有各自的缺陷难以兼顾所有数据类型。因此,本文设计了一种基于相关性矩阵的数据自动分类和方法选择策略ADCS。ADCS首先对数据内部维度进行相关性分析并依次构建相关性矩阵C。接着ADCS对矩阵C进行奇异值分解,并利用降维的思想寻找矩阵C符合要求的K阶近似矩阵CK。然后通过对比CK的维度与C的维度数量的比α是否超过给定阈值来判定数据属于维度强相关数据还是维度弱相关数据。在对数据维度间相关性较大、且具有较多噪音信息的维度强相关数据进行在线异常检测时,往往需要构建一个高效准确的模型。而一个理想的异常检测模型应满足以下三个要求:1.模型需要在仅耗费少量存储空间的条件下准确模拟数据分布;2.模型应当有一个可信且有效的异常检测策略;3.模型理应能够仅通过对数据进行一次读取来实现自身的更新,以适应数据流中不断变化的分布。尽管目前有许多针对数据流异常检测技术的研究,但这些解决方案都不能同时完全满足以上所有需求。因此,本文提出了一种新颖的基于矩阵概要的异常检测框架NODF-MaS来解决这一难题,并在异常检测的准确性和效率方面实现了巨大的提升。具体来说,NODF-MaS采用了基于数据相关性的多视图切分技术精确地映射数据分布,并设计了一个分布式检测系统和集成方法,以确保预测的准确性。此外,NODF-MaS还采用了矩阵概要技术来降低计算成本并提高响应速度。实验表明NODF-MaS不仅在响应速度方面远超过其对比算法,同时也确保了高精度的异常值检测。与已有算法比,NODF-MaS的运行速度提高了 32%~60%,检测精度始终保持在较高水平,在一些数据分布较为复杂的数据集上甚至达到了其他算法的3倍,这是目前所有主流算法都难以完成的。对于数据维度之间相关性较低、无太多噪音信息的维度弱相关数据而言,基于距离的方法无论是从准确度还是响应速度上而言都有很好的表现,且简单直观。结合特定的预处理过程也可以拓展到很多领域。但是目前基于距离的算法仍存在一个致命缺陷,目前的方法大都是采取“滑动窗口”的形式来完成模型的增量更新,这就使得异常检测模型很难适应分布动态变化的数据流。为解决这一问题,本文提出了一种基于活跃内点模型和微簇结构的异常检测方法FROD。具体来说,FROD采用活跃内点模型AIP动态地选择具有代表性的数据对象进行保留以进行后续的异常值分析。并提出了一种有效的基于微簇的数据存储结构以及其更新方法用来维护AIP中的数据,以提高检测效率。除此之外,本文还分析了 FROD的时间复杂度,并从理论上证明了 FORD相对于同类方法的优越性。实验表明,FROD不仅更能适应数据分布动态变化的场景,而且在同样检测精度的情况下,FROD在检测速度上更能领先其余方法1到2个数量级。为了将研究成果付诸实际,本文设计实现了一个通用的多类型数据流异常检测原型系统GMSOD。GMSOD在Storm这一优秀的分布式流处理平台上进行开发,系统整合了数据类型识别模块、维度强相关数据检测模块和维度弱相关检测模块,并按照“分发-汇总”的思想为两种分布式数据流异常检测算法搭建并行框架。实验表明,传统的方法只能在部分特定的数据集上发挥出较好的性能,而GMSOD则可以自动切换算法以保持检测的准确性并始终能在数据处理速度上远超其他方法,由此可见,GMSOD可以更好适应数据流中各种类型数据环境,并且始终都能表现出优秀的异常检测性能。
其他文献
我将勾勒出下述二者之间的基本差别:一为亚里士多德的实践理性,一为20和21世纪基于人的普遍尊严这一原则的人权谈论。在当今全球化的世界中,这两种政治话语在何种程度上是相
会议
东北人民的抗日斗争是中国14年抗战的发端与重要组成部分,也是世界反法西斯战争的重要战场。这些金戈铁马、波澜壮阔的斗争使东北抗战具有了群众参与的广泛性、民族性、斗争
本文针对当前我国履带式车辆悬挂系统叶片式液压减振器存在的问题,基于叶片式液压减振器的使用性能和可靠性的角度,运用弹性力学、工程流体力学、动态测试技术以及数值计算方法等相关知识,系统深入地对本文所选用的某型履带车叶片式液压减振器进行了理论分析、数值计算和试验研究。本文具体内容有:根据履带车肘内式油气悬挂及叶片式液压减振器的结构特点,分析并建立了肘内式油气悬挂的弹性模型,对肘内式油气悬挂受到外部激励时
随着互联网的发展,越来越多的人们选择电子游戏作为休闲时的娱乐项目,电子游戏相关产业正处于一个高速发展的时期中。其中电子竞技比赛直播逐渐成为人们关注的焦点之一,人们通过电子竞技即时解说了解电子游戏的比赛的实况。然而对电子竞技即席解说的研究还停留在传统文学体层面上。本文以韩礼德的系统功能语法为理论框架,选取影响广泛电子竞技赛事——《英雄联盟》的即席解说,从语气系统和情态系统两方面探究电子竞技即席解说的
当今互联网金融快速崛起,其以高效、大数据性、体验度好的优势,正在全面冲击着银行业的主导地位。为了适应严峻的竞争局势以及变化的市场环境,银行业在不断提高服务营销能力,现阶段大部分商业银行都调整了原有存贷差的盈利模式,把顾客作为重要资源,以客户需求为中心,创新服务营销意识,提升服务品质等,以此来提升自身的市场竞争力。因此,研究银行业服务营销具有重要意义。鉴于此,本文Y银行石家庄分行为例,采用文献研究、
目的:本研究以肾虚湿热型精癃病患者为研究对象。通过芒针治疗与毫针治疗的临床疗效观察和对比,探讨针刺治疗该病的有效性和安全性,比较两种针刺方法的优劣,发掘芒针治疗的优势,为临床治疗该病提供新的治疗方案和针刺方案。方法:本研究将符合纳入标准的60例患者随机分为芒针组及毫针组。芒针组采用0.30×75mm规格芒针,取中极、水道、中脘、关元等穴予芒针深刺,穴位经酒精消毒后,依据患者腹部丰厚程度缓慢轻柔进针
研究目的:十九大关于我国社会主要矛盾的新论断是新时代确立发展理念和方略的基础和依据。社会主要矛盾本质依然是供需矛盾,矛盾焦点由"数量短缺"向"优质不足"转变。广泛开展
思维与语言,两者之间的关系非常密切,相辅相成。一方面,思维需要借助语言,作为其有效的载体和表现形式;同时思维能在语言学习和使用的过程中得到高效发展;另一方面,学习与使用语言需要借助思维,含有思维品质的语言学习活动有利于提高语言学习的效果。2018年教育部统一发布和实施普通高中英语2017年版新课标,强调了思维品质等学科核心素养的重要性。在英语学科核心素养中,思维品质被认为是其心智特征。思维品质主要
电商语篇是随着电商平台的发展而兴起的一种新型语篇,对交易有着极为重要的影响。本研究以AliExpress和eBay平台上的6类英语商品语篇为研究对象,使用Python、Antconc和SPSS软件,补充Hyland元话语分析模式,对比这两大平台上的元话语分布情况、语篇特点和具体元话语使用情况,并在此基础上提出四条跨境电商卖家组建语篇建议。研究有利于深化英语电商语篇研究,拓展元话语研究范围和指导电商
研究目的:公共体育服务是贯彻落实全民健身和建设健康中国两大国家战略的重要保障,但调查统计显示,我国居民对当前公共体育服务质量持"满意"态度的城乡居民仅有14.1%,对公共