论文部分内容阅读
随着计算机技术和网络通信技术的发展,计算机网络在给人们便利的同时,还面临一系列安全问题。计算机系统和网络设施的入侵攻击行为日益增多,已经严重地影响了人们使用网络资源的正当需求,而且给社会带来了巨大的经济损失,因此急需提出解决现阶段网络安全问题的可行方案。本研究从当前热门的安全技术入侵检测入手,依据入侵检测的对象-网络数据流的特征,将数据流挖掘技术引入入侵检测中,提出基于入侵检测的数据流挖掘新方法。本文主要从数据流挖掘角度对入侵检测做了以下几个方面的研究:首先针对单个分类器算法进行了研究与设计,使用机器学习的前沿技术核学习理论方法,将核主成分分析和支持向量数据描述相结合,提出基于核学习的入侵检测改进算法。并通过实验证明,该算法作为异常检测技术可以获得较高的检测精度和较低的漏检率。接着对前面提出的核学习改进入侵检测方法做扩展,提出一种新的基于半监督核学习多分类算法,先对超球体重新进行数学建模,然后分析其数学特性,最后定义权值信息并使用加权朴素贝叶斯和期望最大化算法(ExpectationMaximuzation Algorithm,简称EM算法)设计主体算法,将已标签数据和未标签数据整合训练出最终决策超球体。实验数据表明,该算法不仅能保留传统算法较好的分类结果,还能降低测试样本误判率。最后考虑到数据流具有海量性、时变性、快速性的特点,将前面提出的基于半监督核学习多分类算法应用到当前流行的分布式系统平台Hadoop上,设计基于Hadoop的入侵检测数据流挖掘系统模型。首先以半监督核学习多分类算法作为该平台各个计算子节点的基分类器,然后使用Hadoop编程模型MapReduce并行训练各个子分类器,最后将测试数据的测试结果进行整合,得到最终决策值。从并行化和时间复杂度两个方面对模型的性能进行分析,表明该模型是可行的。