论文部分内容阅读
随着信息技术的飞速发展和互联网应用的不断丰富,网络在现代社会中的地位日趋重要。互联网在提高生活水平和生产效率、促进经济发展与社会进步的同时,随之而来的网络安全问题也日益凸显。各种网络入侵和网络攻击层出不穷,给网络空间安全造成严重威胁。入侵检测是对抗各种网络威胁行为的基础技术和关键步骤。不同于传统的基于特征匹配或统计分析的方法,基于机器学习的网络异常检测技术不仅能检测出已知类型的攻击,还能通过自主学习检测出未知类型的攻击,是近年来信息安全学术界与产业界的研究热点。但就目前而言,研究所获得的异常检测方法距离实际部署的理想需求仍有差距。针对这一问题,本文首先分析了已有的各类网络异常检测方法,重点分析了其在检测精度、误报率、实时性等方面的不足,并针对这些不足,提出基于集成学习的网络异常检测技术,取得如下研究成果:(1)研究了各类用于网络异常检测的机器学习方法,并从学习监督模式、输入数据粒度层次及检测方法适用范围的角度对现有方法进行了评估和分析,指出现有方法所存在的不足,分析了造成不足的原因,并指出集成学习在面对大数据挑战的网络异常检测中仍有很大潜力,不断成熟的大规模并行与分布式计算平台技术也给基于机器学习的网络异常检测提供了机遇。(2)针对当前网络异常检测检测精度与误报率难以兼顾的问题,提出一种新的网络异常检测方法HELPAD,使用基于隐马尔科夫模型(HMM)的集成学习方法检测恶意网络数据包。HELPAD关注网络报文的上下文环境,针对的检测对象是基于时序的网络报文序列。同时为进一步降低误报率,使用集成学习方法以消除模型参数随机初始化带来的偏斜。HELPAD在训练阶段从正常网络报文中提取TCP flag标志位并将其转换为十进制数序列,这些序列被Baum-Welch算法用作观察符号以确定HMM的最优参数。这些表征网络的正常行为模型的HMM模型被用作基分类器进行组合,获得的集成分类器来决定待检测报文序列是否恶意。在DARPA 1999数据集上获得的实验结果表明,HELPAD能在获得较高检测率的同时有效克服误报率过高的问题。(3)针对当前网络攻击日益复杂、精巧和隐蔽的问题,我们提出一种基于传输层和应用层融合分析的网络异常检测模型:首先使用HELPAD实现对报文的序列级(sequence-level)传输层检测,检测的阳性结果再通过一种字节级(byte-level)的应用层载荷检测做筛查,从而降低误报率。我们提出一种基于多粒度混合n-gram模型的应用层载荷分析的异常检测方法M-N-Grams,以字符上下文和字符序列出现的概率为特征对网络报文进行应用层的正常行为建模。同时我们还提出一种概率树结构模型以提高M-N-Grams算法的存储和分析效率。在CSIC 2010数据集和DARPA 1999数据集上的实验表明,M-N-Grams是一种有效的针对应用层载荷的异常检测方法,同时HELPAD+M-N-Grams模型能在不显著增加系统运行开销的情况下将系统误报率降低50%到70%。(4)针对网络深度异常行为检测的迫切需求,我们在基于集成学习的网络协议行为异常检测和基于混合粒度n-gram模型的应用层载荷异常检测的工作基础上,分析构建网络应用的富语义行为模式,结合网络协议逆向分析与网络数据流式处理技术,建立一套网络行为模式的基本理论及技术体系,并通过对深度异常行为检测评估技术的研究,提出基于深度行为分析的新型网络威胁检测框架,并且基于HELPAD和M-N-Grams模型在Storm平台上实现基于深度行为分析的网络威胁检测的一个实例。