论文部分内容阅读
作为网络安全技术的补充方式,入侵检测系统(Intrusion Detection System,IDS)弥补了传统安全技术难以有效地应对当前网络安全所面临的严峻局面。IDS可以检测到网络中存在的攻击和入侵行为,通过分析从若干个关键节点收集来的信息,检测是否存在网络安全问题,并对可疑的攻击行为进行处理,从而保障网络安全。IDS常常面临海量的高维数据,这将严重影响到IDS的性能。相关研究表明最重要的特性存在严重重叠,使用最重要的特性可以产生与使用所有可用特性相当的效果,通过删除冗余和不相关特征可以减少训练和检测时间,有助于降低获取数据的成本,并使得分类模型更容易理解。因此需要我们从原始特征集合中选取一些具有代表性的特征来降低特征空间维度,在不牺牲预测精度的前提下,提高IDS的效率和性能,而这就是特征选择问题。特征选择的研究总是试图获得低误报率,高精度和时间短的检测。通常可以将其分为过滤式(Filter)、封装式(Wrapper)和嵌入式(Embedded)三类。Filter方法通用性强,可以快速去除不相关特征,但分类效果差。Wrapper方法精确度高,但计算复杂度高,速度慢。为了解决这些问题,论文侧重于对两种方法的各自优势进行深入研究,本文第三章提出了基于混合Filter和Wrapper的特征选择方法在IDS中的应用。首先采用Fisher score和Relief方法分别对原始特征进行过滤,将所得到的两组特征子集进行交集处理,筛选出共有特征集合;在此基础上,以共有特征子集作为序列后向搜索方法(Sequential Backward Selection,SBS)的初始特征子集,并且利用支持向量机(Support Vector Machine,SVM)作为分类器,构建分类模型,最终选出最优的特征组合。这种方法具有以下两点意义:(1)传统的Filter方法通常按照预先设定的指标排列特征,删除结果小于阈值的特征,使用这种方法用于特征选择就涉及到阈值如何设定的问题。阈值设定是否合适往往会影响到最优特征子集的选取以及最终分类器的性能。本文的方法是将所有的特征利用Filter方法进行排序,最终依靠分类器的性能作为是否接受该特征的依据,而不是单纯的依据Filter方法计算出来的分值作为接受条件。这种选取方法使得无论Filter计算出来的单个特征分值高低如何,都有机会被选为最优特征子集,避免未考虑组合特性的问题。因为存在某些重要的特征本身信息较少,但是在与其他特征结合时信息量丰富,分类效果很理想。(2)基于Wrapper的特征选择方法是依赖于学习算法的,该方法将分类器的性能作为评价函数嵌套在算法运行过程中,准确率高,分类效果好,但是时间复杂度高且消耗大量计算资源;本文的方法是先利用Filter方法过滤原始特征集合中的特征,再通过Wrapper方法寻找最优特征子集,有利于减少算法的时间消耗。另外,考虑到SBS属于贪心算法,这种算法只能删除特征,无法加入新的特征,且该算法容易陷入局部最优;本文在第四章提出基于Memetic算法的特征选择方法。首先采用Fisher score方法对原始特征进行过滤;在Wrapper阶段,使用Memetic算法对特征进一步筛选。而所使用的Memetic算法是在传统遗传算法(Genetic Algorithm,GA)的框架内,通过利用自适应的交叉、变异概率在GA运行过程中动态的改变参数值,同时将模拟退火算法(Simulated Annealing,SA)按照一定策略嵌入到GA中,利用SA来改进GA选择个体的策略,重复迭代运行算法,不断的优化种群个体,最终得到最优解。这种算法不仅具有GA的全局搜索能力,而且通过局部启发式搜索加快了算法的收敛速度,收敛性能强,更有可能获得高质量的解,有利于IDS的实际应用。