论文部分内容阅读
自从诞生了“互联网”这一概念,网络入侵,恶意攻击等黑客技术就一直是各大高校、企业和政府为之困扰的问题。只要攻破了防御屏障,对于如何窃取和利用数据,黑客们易如反掌。特别是在网络技术和通讯手段愈加发达的今天,网络安全问题已经迫在眉睫。随着网络攻击的技术门槛大大降低,现代的网络攻击手段已呈现出攻击智能化、技术自动化和手段多样化的特点。因此,需要一种主动防御的可自我进行学习的技术来保障互联网通信安全,一类通用的主动防御模型-入侵检测系统(IDS)应运而生。传统的IDS主要存在的问题一是对高维数据集的处理较为迟缓,反应速度比较慢,难以处理海量高维数据,二是没有充分考虑到数据集中存在的时序维度对判断正确率的影响等等。在机器学习热潮到来的今天,许多专家学者将数据挖掘技术和IDS模型有机的结合起来,形成了基于机器学习的IDS框架,新的框架模型改进了传统的IDS模型所存在的一些缺点,不仅对海量高维数据的处理更加得心应手,而且模型本身具有很好的自我学习和更新能力。保证了系统准确率的同时也提高了检测的速度。IDS模型其本质由两部分组成,首先是通过聚类算法分析出数据集的质心,得到的质心表示的是数据特征,然后通过分类算法计算准确率来验证质心的效果。经典的K-means聚类算法可以处理海量数据集,但不理想的初始聚类中心会导致模型不能达到预期效果,同时数据集中的时间维度特征存在的噪声,振幅频移等抖动会对聚类结果造成影响,因此本文提出了一个改进的IDS模型ACS-K解决出现的这两类问题。本文主要包含三部分内容:(1)首先对IDS模型、时序数据等概念进行了阐述,对用到的学习模式等相关技术进行了说明;(2)提出了一个IDS模型ACS-K,该模型首先对K-means聚类算法进行了改进,利用自适应步长的布谷鸟搜索算法优化初始聚类中心,避免了K-means算法对初始聚类中心敏感的缺点,同时通过调整发现概率的大小找到较为适合搜索最优解的值。然后通过动态调整距离公式使聚类的前期质心对时序特征的容忍能力较高,尽量避免变形的时序特征对总体特征的影响;在聚类后期逐渐降低容忍能力,对时序特征保持一定的敏感;(3)针对提出的ACS-K模型做出了相关实验,实验结果表明ACS-K模型可以使最终聚类的簇的质心更稳定,聚类效果更好,不同分类器通过得到的数据特征对测试集进行判断,其准确率均有所上升,证明ACS-K模型对外来数据的识别能力更加完备,拥有较高的判断正确率,同时具有一定的鲁棒性和泛化能力。