论文部分内容阅读
随着信息技术的迅猛发展,在给我们生活带来便利的同时也带来了许多的安全隐患。在大数据时代下,每人每天使用网络产生的海量数据经常被一些不法公司窃取用作商业用途,对于一个企业来说,重要数据就是使其发展延续的命脉,对于国家来说,重要信息泄露引起的危害是不可估量的。因此为了更好的维护信息安全,防止数据泄露,入侵检测技术应运而生。近年来人工智能一词不再陌生,机器学习也被应用到各个领域中,这其中就包括了网络安全领域。为进一步提高入侵检测算法的适用性和时效性,研究基于机器学习的入侵检测算法具有重大意义。该文围绕特征选择和集成学习两种机器学习算法对入侵检测技术进行研究,具体内容如下:首先,对两种入侵检测数据集分别进行分析处理。分析了KDD cup99数据集,针对其自身缺陷本文提出使用UNSW_NB15数据集,对比KDD cup99数据集而言,UNSW_NB15数据集更加真实的反应了现代网络环境。分别对以上两种数据集进行数值化、标准化和归一化的实验处理,得到可以直接用于入侵检测的数据。其次,设计并完成基于特征选择的入侵检测方法与实验。针对入侵检测数据集数据维度过高的问题,深入研究了特征选择的方法。使用主成分分析算法分别对以上两种数据集进行特征选择,保留主成分特征属性,去除数据影响较低的特征列。在入侵检测实验中使用了机器学习中典型的有监督算法:K-邻近分类算法和朴素贝叶斯算法,分别对两种数据集进行了分类实验。实验证明使用特征选择方法在一定程度上提高了检测率,极大地节约了计算时间。最后,设计并完成基于集成学习的入侵检测算法与实验,并在此基础上完善了入侵检测系统模型。在特征选择基础上加入了集成学习算法,对多个基分类器进行投票,根据投票结果决定分类结果。实验结果表明加入集成学习算法后,提高了入侵检测的准确率。系统模型的设计是在通用入侵检测模型基础上加入了特征选择和集成学习模块,提高了系统的综合性能。