大规模聚类算法及在异常检测中的应用研究

来源 :解放军信息工程大学 | 被引量 : 0次 | 上传用户：lanke0022

【摘要】

：

随着网络安全形势日益严峻,大量安全设备和多样化的数据采集技术投入使用,对由此产生的大量网络数据进行深入挖掘分析已成为提升网络安全管理和防护能力的主要手段之一。不易

【作者】

：

叶茂

【出处】

：

解放军信息工程大学

【发表日期】

：

2017年01期

【关键词】

：

网络安全数据分析大规模数据聚类异常检测抽样随机映射

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着网络安全形势日益严峻,大量安全设备和多样化的数据采集技术投入使用,对由此产生的大量网络数据进行深入挖掘分析已成为提升网络安全管理和防护能力的主要手段之一。不易获得足够训练集的情况使得无监督数据分析方法更契合大规模网络数据分析的需求。特别地,作为一类典型的无监督数据分析方法,聚类根据相似性将数据集划分成不同的子集,不仅可以用来寻找数据的内在分布结构,还能以此为基础作为其他数据分析方法的组件。进一步,基于聚类的异常检测机制不仅效率高,还能检测未知的攻击行为,可弥补传统基于模式匹配的入侵检测技术的不足。但是,大数据时代带来的大体量、高维度网络数据使得传统聚类算法面临高存储、高计算复杂度等现实挑战。因此,对这些经典数据分析方法进行扩展变得尤为迫切。由随机抽样和随机映射组成的随机化近似方法是面向大规模数据分析的的一类主流扩展技术,也是近年来数据分析研究中的热点,具有在降低复杂度的同时保持分析效果的理论优势和易于实现及并行化的计算特性。本文针对基于随机化近似的聚类算法设计和基于聚类的异常检测所面临的簇个数敏感、流数据适应问题,展开了下述研究:(1)基于随机映射的模糊c均值(FCM)聚类FCM聚类能增加子集划分的弹性,适用于网络数据所属类别界限模糊的情形。但是,当面对高维网络数据时,FCM算法所对应优化问题的困难性将显著提高。另外,初始化对FCM算法效果有很大影响,使得算法的输出很不稳定。为此,本文研究了基于随机映射的FCM算法和FCM集成聚类算法:·对随机映射降维在FCM聚类上的影响进行了理论分析,证明了随机映射能维持数据集的总体变异性和随机映射降维的有效性;结合随机映射在点对距离上的近似保持性质,设计了基于随机映射降维的改进FCM算法,并通过实验验证了算法的性能。·为避免初始点选取对聚类结果的影响,对多个上述算法聚类结果进行整合,设计了集成聚类算法。通过对串联的隶属度矩阵奇异值分解,该集成算法能以线性时间和空间计算数据的谱嵌入。实验结果也验证了新集成算法在聚类精度、效率和稳健性上的优势。(2)基于地标标抽样的谱聚类算法抽样的谱聚类算法谱聚类能适应广泛的数据几何形状,适用于网络数据分布形态未知的情形。基于地标表示的谱聚类算法利用地标点与数据集各点间的相似度矩阵,有效降低了谱嵌入的计算复杂度。在大数据集情况下,现有的均匀抽取地标点的方法会影响聚类结果的稳定性,k均值中心点方法面临收敛时间未知、反复读取数据的问题。本文将近似奇异值分解应用于基于地标点的谱聚类,利用近似奇异向量矩阵行向量的长度计算抽样概率,设计了一种快速地标点采样算法。同均匀抽样策略相比,该算法保证了聚类结果的稳定性和精度,同k均值中心点策略相比该算法复杂度更低。同时从理论上分析了抽样结果对原始数据的信息保持性,并对算法的性能进行了实验验证。(3)基于随机映射和抽样的约束谱聚类算法针对网络数据常有的“有标记数据少,未标记数据多”现象,利用少量标记数据改善聚类分析效果很有必要。另外,集成聚类具有提升聚类质量、聚类多源异构数据等优良性质。为此,本文研究了基于矩阵重构的约束谱聚类和基于随机映射的约束谱集成聚类:·将邻接矩阵重构和约束谱聚类模型结合,设计了线性复杂度的约束谱聚类框架。通过理论分析和实验计算,证明了新框架在压缩模型规模的同时,还能避免主要划分信息的损失。基于地标的图构造和近似矩阵分解,新框架既能应用于属性数据又能应用于图数据。实验结果验证了新框架在聚类效果、效率和实用性上的优势。·利用在k均值阶段进行均匀采样进一步提升上述压缩约束谱聚类的效率,并在谱集成聚类阶段引入稀疏随机映射降维,设计了新的约束谱集成聚类算法。从目标函数的角度证明了新算法对聚类结果的近似保持性,并实验验证了算法的聚类有效性和效率。(4)所设计聚类算法在异常检测上的应用异常检测已成为网络入侵检测的主要手段之一。本文研究了所设计聚类算法在异常检测上的表现,并针对异常检测结果受簇个数影响的情况和流数据情形,设计了两种新的异常检测算法:·将所设计的聚类算法和已有的异常指数计算方法结合,得到了适应不同环境的异常检测算法,并在真实的网络连接数据上对各算法性能进行了评估。·基于所设计的(约束)谱聚类算法,结合主成分分析子空间检测方法,设计了对簇个数不敏感的异常检测算法,并实验验证了新算法的检测效果和效率。·为实时对网络数据进行分析,基于所设计的约束谱聚类算法,通过地标点对流数据信息进行传递,设计了能有效利用约束信息的流异常检测算法。实验结果验证了新算法对流数据的检测效果和效率。

其他文献

SARS的流行与可持续发展的生态伦理观

分析生态环境危机对SARS的暴发、流行的影响，认为生态环境危机从根本上说是人类道德的危机。通过对这一突发性的事件的反思，说明保持生态环境的可持续发展的是我们必须树立的生

期刊

SARS流行可持续发展生态伦理观

推进文旅融合发展打造全域旅游品牌

党的十九大报告指出，要加强文物保护利用和文化遗产保护传承，推动文化事业和文化产业发展。零陵作为一座文化底蕴厚重的国家历史文化名城和山水洲城完美融合的生态旅游城市，发展

期刊

聚焦企业基础管理恪尽职守服务大局

按照公司党委安排部署，企协党支部把学习习近平总书记7月26日在省部级主要领导干部专题研讨班开班式上的重要讲话精神作为当前首要政治任务，创新支部“i＋i”学习形式，营造了良好

期刊

服务大局领导决策习近平总书记重要讲话精神

GaN HEMT高性能功率放大器研究

射频功率放大器的工作频段目前正朝着宽带高频的方向飞速发展。而功放的工作效率提升将有助于降低散热成本,输出功率的提升将有助于提高信号的覆盖面积。本文正是对宽带功放

学位

功率放大器宽带谐波控制网络F类

谈吹玻璃

物理化学实验室中及医学上所用精细璃器皿,多用吹玻璃方法制成,此方法初视之似甚简单,然一加练习,则即觉有甚多困难,非经多年长久练习,不能使所欲制之器皿,达于完善之地步。

期刊

AMPK信号通路在蛋鸡原代肝细胞脂质代谢中的作用

为了探讨AMPK信号通路在蛋鸡原代肝细胞脂质代谢中的作用。通过改良原位二步灌流法获得了高活性鸡原代肝细胞,然后参照非酒精性脂肪肝体外建模方法,使用脂肪酸(油酸:棕榈酸为2:1)处理肝细胞建立脂肪变性模型,分为正常肝细胞组(Control组),正常肝细胞+AICAR组(Con+AICAR组),正常肝细胞+Compoud C组(Control+Comp C组),脂肪变性肝细胞组(FFA组),脂肪变性肝

学位

AMPK信号通路原代肝细胞脂肪变性模型脂质代谢蛋鸡

中国中铁与中铁二局筹划资产整合

13日晚，中国中铁和中铁二局公告，双方谋划资产整合。分析人士指出，随着国资国企改革进一步推进，借力资本市场将是重要途径之一。国企改革主题投资有望迎来新一波热潮。$$ 国企

报纸

东北亚城市科技创新能力提升的因素探讨--基于结构化方程模型的路径分析

本文选取东北亚155个城市，通过聚类分析和判别分析，对他们的科技创新进行了分类和比较研究，从中选取了科技创新能力较为靠后的137个城市，采用结构化方程模型，对他们的影响因子和路

会议

地方城市经济科技创新能力结构化方程模型

一种极低静态电流LDO线性稳压器的设计

在此设计一个具有560 n A静态电流、150 m A驱动能力的低压差线性稳压器。该LDO采用TSMC 0.18μm混合信号CMOS工艺,输出电压是3.3 V,输入电压为3.5~5 V。低静态电流LDO电路的

期刊

LDO低静态电流频率补偿瞬态响应

传承开拓创新——《学术论坛》改版、改革敬告作者、读者

《学术论坛》是由广西社会科学院主管主办的综合性哲学社会科学学术期刊,辟有哲学、经济学、政治学、社会学、法学、文学、文化学、历史学等学科栏目。2017年起由月刊改版为

期刊

《学术论坛》广西社会科学院

大规模聚类算法及在异常检测中的应用研究

其他学术论文