论文部分内容阅读
入侵检测技术是一种主动保护系统或网络免受攻击的一种信息安全技术。数据挖掘是从海量的数据中提取出用户感兴趣的数据信息(知识);针对其特点目前很多人把数据挖掘技术用到入侵检测中获得相关的入侵知识、系统特征知识。分类是数据挖掘的重要技术之一,把分类技术用到入侵检测中主要是为了建立分类模型,能更精确的区分正常和异常行为。
分类的方法很多,比如决策树、神经网络、规则归纳等分类方法,其中规则归纳算法中的RIPPER算法是在入侵检测领域常用的一种算法。与其它分类算法相比,它能够直接较快的建立简单、易于理解的模型,而且RIPPER算法具有较好的泛化精度(GeneralizationAccuracy),规则中的条件也比较简洁明了,这两点对于入侵检测来说非常重要。
在入侵检测中会出现一些小概率事件,这些事件或者是入侵行为或者是正常行为,我们称其为是稀有类。而RIPPER算法是通用的算法对于这种小概率事件的发生不具有分类能力,所以RIPPER算法用在入侵检测中还存在不足之处。本文针对RIPPER算法这个不足进行了研究,并且提出了一种改进方案,具体思想就是把RIPPER算法的学习(生长)阶段分成两个过程——RP过程和RN过程。RP过程放宽了精确度限制提高了覆盖率;RN过程在RP过程的基础上去掉多覆盖的反例。经过这种改进之后提高了RIPPER算法对于稀有类的分类能力。
通过实验证明,经过改进后的算法在精确度上没有太大变化,但是在稀有类分类方面有很好的分类效果。可见改进后的算法更适合入侵检测领域。