论文部分内容阅读
随着网络安全形势日益严峻,大量安全设备和多样化的数据采集技术投入使用,对由此产生的大量网络数据进行深入挖掘分析已成为提升网络安全管理和防护能力的主要手段之一。不易获得足够训练集的情况使得无监督数据分析方法更契合大规模网络数据分析的需求。特别地,作为一类典型的无监督数据分析方法,聚类根据相似性将数据集划分成不同的子集,不仅可以用来寻找数据的内在分布结构,还能以此为基础作为其他数据分析方法的组件。进一步,基于聚类的异常检测机制不仅效率高,还能检测未知的攻击行为,可弥补传统基于模式匹配的入侵检测技术的不足。但是,大数据时代带来的大体量、高维度网络数据使得传统聚类算法面临高存储、高计算复杂度等现实挑战。因此,对这些经典数据分析方法进行扩展变得尤为迫切。由随机抽样和随机映射组成的随机化近似方法是面向大规模数据分析的的一类主流扩展技术,也是近年来数据分析研究中的热点,具有在降低复杂度的同时保持分析效果的理论优势和易于实现及并行化的计算特性。本文针对基于随机化近似的聚类算法设计和基于聚类的异常检测所面临的簇个数敏感、流数据适应问题,展开了下述研究:(1)基于随机映射的模糊c均值(FCM)聚类FCM聚类能增加子集划分的弹性,适用于网络数据所属类别界限模糊的情形。但是,当面对高维网络数据时,FCM算法所对应优化问题的困难性将显著提高。另外,初始化对FCM算法效果有很大影响,使得算法的输出很不稳定。为此,本文研究了基于随机映射的FCM算法和FCM集成聚类算法:·对随机映射降维在FCM聚类上的影响进行了理论分析,证明了随机映射能维持数据集的总体变异性和随机映射降维的有效性;结合随机映射在点对距离上的近似保持性质,设计了基于随机映射降维的改进FCM算法,并通过实验验证了算法的性能。·为避免初始点选取对聚类结果的影响,对多个上述算法聚类结果进行整合,设计了集成聚类算法。通过对串联的隶属度矩阵奇异值分解,该集成算法能以线性时间和空间计算数据的谱嵌入。实验结果也验证了新集成算法在聚类精度、效率和稳健性上的优势。(2)基于地标标抽样的谱聚类算法抽样的谱聚类算法谱聚类能适应广泛的数据几何形状,适用于网络数据分布形态未知的情形。基于地标表示的谱聚类算法利用地标点与数据集各点间的相似度矩阵,有效降低了谱嵌入的计算复杂度。在大数据集情况下,现有的均匀抽取地标点的方法会影响聚类结果的稳定性,k均值中心点方法面临收敛时间未知、反复读取数据的问题。本文将近似奇异值分解应用于基于地标点的谱聚类,利用近似奇异向量矩阵行向量的长度计算抽样概率,设计了一种快速地标点采样算法。同均匀抽样策略相比,该算法保证了聚类结果的稳定性和精度,同k均值中心点策略相比该算法复杂度更低。同时从理论上分析了抽样结果对原始数据的信息保持性,并对算法的性能进行了实验验证。(3)基于随机映射和抽样的约束谱聚类算法针对网络数据常有的“有标记数据少,未标记数据多”现象,利用少量标记数据改善聚类分析效果很有必要。另外,集成聚类具有提升聚类质量、聚类多源异构数据等优良性质。为此,本文研究了基于矩阵重构的约束谱聚类和基于随机映射的约束谱集成聚类:·将邻接矩阵重构和约束谱聚类模型结合,设计了线性复杂度的约束谱聚类框架。通过理论分析和实验计算,证明了新框架在压缩模型规模的同时,还能避免主要划分信息的损失。基于地标的图构造和近似矩阵分解,新框架既能应用于属性数据又能应用于图数据。实验结果验证了新框架在聚类效果、效率和实用性上的优势。·利用在k均值阶段进行均匀采样进一步提升上述压缩约束谱聚类的效率,并在谱集成聚类阶段引入稀疏随机映射降维,设计了新的约束谱集成聚类算法。从目标函数的角度证明了新算法对聚类结果的近似保持性,并实验验证了算法的聚类有效性和效率。(4)所设计聚类算法在异常检测上的应用异常检测已成为网络入侵检测的主要手段之一。本文研究了所设计聚类算法在异常检测上的表现,并针对异常检测结果受簇个数影响的情况和流数据情形,设计了两种新的异常检测算法:·将所设计的聚类算法和已有的异常指数计算方法结合,得到了适应不同环境的异常检测算法,并在真实的网络连接数据上对各算法性能进行了评估。·基于所设计的(约束)谱聚类算法,结合主成分分析子空间检测方法,设计了对簇个数不敏感的异常检测算法,并实验验证了新算法的检测效果和效率。·为实时对网络数据进行分析,基于所设计的约束谱聚类算法,通过地标点对流数据信息进行传递,设计了能有效利用约束信息的流异常检测算法。实验结果验证了新算法对流数据的检测效果和效率。