论文部分内容阅读
随着因特网的快速普及,网络已经渗透到了人们日常工作和生活的各个方面。然而,随之而来的各种安全威胁,对社会稳定和经济发展带来了不同程度的损害。作为主要安全技术之一,入侵检测技术能够在网络攻击造成广泛的破坏前检测到攻击行为,从而为防御策略的制定提供重要依据。而网络规模的不断扩大,各种新的安全漏洞和网络攻击手段层出不穷,对入侵检测系统的检测性能提出了更高的要求。数据挖掘是一种智能数据分析技术,能够从大量数据中发现有用的知识。本文综述了国内外在基于数据挖掘的入侵检测研究领域的最新进展,以基于数据挖掘的网络入侵检测关键技术为研究重点,对入侵检测中的特征降维及样本约简、基于离群点挖掘的异常检测方法、混合入侵检测模型等方面进行了研究。本文的主要研究工作可归纳如下:(1)研究了特征降维技术在入侵检测中的应用,设计了一种能够适用于入侵检测的特征提取方法。所谓特征降维,包含特征选择和特征提取两种方式,能够降低表征数据的特征向量的维数,从而使许多数据挖掘算法获得更好的效果。本文在分析入侵检测领域中的特征降维相关研究的基础上,提出了一种基于簇中心距离和的特征提取方法。该方法利用数据集中各数据样本与簇中心的一种特定关系——距离和,将表征数据样本的原始特征向量从高维空间转换到低维空间。文中的实验表明了该特征提取方法在入侵检测应用中的有效性。(2)研究了样本约简技术在入侵检测中的应用,设计了一种能够适用于入侵检测的样本约简方法。所谓样本约简,是数据约简中的一种方式,用于缩减数据集中的样本数量。与针对整个原始数据集的数据挖掘相比,使用约简后得到的子集能够降低数据挖掘成本和加快挖掘速度,有时甚至能够取得更好的效果。为了能够从原始数据集选出高质量的样本子集,本文提出了一种基于类中心的分层样本约简方法。该方法通过一个能够衡量数据集中样本相对于其所属类别代表能力大小的指标,和一种基于类中心的数据集等分划分策略,可以从原始训练集中选出一个样本子集,进而使用该子集来建立入侵检测模型。文中的实验结果表明该样本约简方法对入侵检测应用是有效的。(3)研究了离群点挖掘技术在入侵检测中的应用,设计了一种基于离群点挖掘的异常检测方法。通过离群点挖掘技术,能够发现数据集中偏离大部分数据的离群值。本文在分析离群点挖掘技术在入侵检测中相关研究的基础上,提出了一种基于簇中心位置变化的异常检测方法。该方法运用聚类算法从正常样本集中提取参考样本(簇中心)之后,通过目标样本(可为训练样本或待检测样本)增加前后簇中心位置的变化情况,为该目标样本赋予一个“离群程度分值”,并将离群程度分值大于一个异常阈值的待检测样本识别为异常样本。文中的实验结果表明该方法能够以较高的检测率完成网络异常检测任务。(4)研究了混合入侵检测模型的组成结构,设计了一种包含三个检测模块的两层混合入侵检测模型。混合入侵检测模型结合了误用检测和异常检测两种检测方法,因而其能够结合两者的优点。本文在分析现有的几类混合入侵检测模型的组成结构及优缺点的基础上,提出了一种包含两个异常检测模块和一个误用检测模块的两层混合入侵检测模型。在该混合入侵检测模型中,两个阶段的检测模块相互合作,阶段2的两个检测模块分别能够识别阶段1的检测模块所产生的误报和漏报。文中的实验结果表明,该混合入侵检测模型能够以较低的误报率和较高的检测率完成入侵检测任务。