论文部分内容阅读
入侵检测是一种能检测任何企图破坏资源完整性、保密性和可用性等入侵行为,并能采取对抗措施的技术。在网络安全问题日益突出的今天,如何迅速而有效地利用入侵检测系统发现各种入侵行为,对于保证系统和网络资源的安全十分重要。随着网络传输数率的不断加快,入侵检测系统处理数据包的能力必须相应增强,但是由于数据包的丢失和攻击者的蓄意破坏,往往存在很多缺失数据、缺失属性的记录和不一致数据等诸多情况,这些数据成了入侵检测系统对数据进行挖掘的一大障碍。因此,在从入侵检测系统进行检测之前必须对数据进行预处理。
本论文着重研究入侵检测中的数据预处理技术,尤其是数据清洗技术,并对提出的算法在 KDD CUP 99 数据集上做了论证。
首先对数据预处理知识做了全面和详细的描述,介绍了数据预处理的研究背景、定义和主要的预处理技术研究现状等。然后对现有的数据预处理技术进行了深入的分析,涉及到数据清洗、数据选样、数据变换和数据归约等技术。之后重点对缺失值填充技术及各种填充算法进行了深入地研究和探讨,并提出了基于聚类技术的缺失值填充法。最后,在前面讨论的各种技术的基础上,对提出的算法进行了一系列的实验,并与使用最广泛的 k-NN 分类技术做出比较。
在对数据预处理技术进行的研究中,着重介绍了缺失值清洗的基本知识和方法,并探讨了当前缺失值清洗技术,客观地评价了它们的优缺点。本文对目前广泛应用的各种数据预处理技术进行了深入的研究,又提出了如何应用聚类算法进行缺失值填充的新方法,并给出了在数据集上的试验结果及结论。
本文的主要创新点在于提出的基于 k-means 聚类技术的缺失值填充算法。