基于机器学习和统计分析的DDoS攻击检测技术研究

来源 :北京邮电大学 | 被引量 : 15次 | 上传用户:nbf1smt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机与通信技术的快速发展,以及当前“互联网+”时代背景下,云计算、物联网、移动互联网和大数据等信息技术的兴起与蓬勃发展,分布式拒绝服务(DistributedDenialofService, DDoS)攻击已经成为导致信息网络环境最不稳定的因素之一;同时,伴随着近年来僵尸网络的盛行,DDoS攻击带来的危害更是日趋严重。由于DDoS攻击的危害性大,每次发生重大攻击事件波及范围广,因此,DDoS攻击检测始终是信息与网络安全领域一个非常重要的研究课题。然而,一些已有的研究工作仍然存在如下一些问题,如:1)保证了检测率(DetectionRate,DR)等指标,却牺牲了检测时间,且资源消耗大;2)不能较好地兼顾攻击检测的DR、正确率(Accuracy)、精确率(Precision)和假正率(False Positive Rate, FPR)等。鉴于此,本文旨在利用当前较为流行的机器学习与数据挖掘、统计分析等相关理论方法和技术,根据DDoS攻击的特点以及对攻击流量中各字段的不同属性特征进行提取、分析,以求对互联网中大流量的DDoS攻击进行实时、高效、准确的检测。本文的主要贡献和创新点包括如下几个方面:(1)针对当前大数据时代的大流量攻击行为检测,尤其是在DDoS攻击实时检测方面效果较差等一系列问题,我们以统计分析中的多元统计分析、相关性统计分析和机器学习中的主成分分析(Principal Component Analysis, PCA)为理论基础,研究并设计了一种基于多元降维分析(Multivariate Dimensionality Reduction Analysis, MDRA)算法的实时攻击检测(Real-time Attack Detection, RTAD)方法。该方法通过对网络流量属性特征字段降维处理并消除相关性,旨在解决互联网中大流量DDoS攻击的实时检测问题。在经过实验数据预处理和实验验证后,得到如下结论:RTAD方法在Precision和真负率(True Negative Rate, TNR)两项评价指标中均要优于基于多元相关性分析(Multivariate Correlation Analysis, MCA)算法的攻击检测方法;在CPU计算时间和内存消耗等方面,RTAD方法也有着明显的优势。(2)针对传统DDoS攻击集中式和准分布式检测方法无法实现协同式检测的目的,而且可扩展性差,部署困难等一系列问题,本文研究了一种基于组合分类器的DDoS攻击随机森林分布式检测(Random ForestDistributionDetection,RFDD)模型。该模型的核心部分采用的是机器学习中应用非常广泛的集成学习方法,即组合分类器的随机森林方法,并将集成学习中的随机森林算法和分布式并行计算框架相结合,通过对攻击流量中不同属性字段进行降噪声和消除相关性,以达到对其准确检测的目的。RFDD模型拓展性好,能够适应网络环境中异常监测的动态调整与部署。通过实验验证得出如下结论:本研究所采用的RFDD模型无论是在DR、Accuracy、Precision还是在FPR方面均要优于Adaboost方法,并且在取不同阈值时,RFDD模型在上述四项指标方面均能保持较好的稳定性。(3)针对已有的基于同构分类器的DDoS攻击检测模型的泛化能力和稳定性较差等一系列问题,本文研究了一种基于奇异值分解(Singular Value Decomposition, SVD)和 Rotation Forest 集成策略的异构多分类器集成学习(Heterogeneous Multi-classifier Ensemble Learning,HMEL)检测模型。该模型主要包括三个模块,即数据集预处理模块、异构多分类器检测模块和分类结果获取模块。HMEL检测模型能够对网络流量的不同属性字段进行去冗余和消除相关性。通过理论分析可以得出:该模型具有更强的泛化能力和普适性;通过与经过SVD处理和未经过SVD处理的随机森林、k-NN以及Bagging等著名机器学习算法所构成的同构分类检测器进行实验对比后,得出如下结论:HMEL检测模型在TNR、Accuracy和Precision方面接近于随机森林和Bagging,并且完全优于k-NN;同时,随着不同阈值的选取,k-NN的TNR、Accuracy和Precision均呈现出不稳定性。因此,该模型不但具有较强的检测能力,而且稳定性好。综上所述,本文以机器学习和统计分析的相关理论方法为基础,本着对网络流量属性特征“去冗余”、“降噪声”、“消除相关性”的三大原则,为解决DDoS攻击检测中的实时、分布式、准确检测以及通过具有较强泛化能力和稳定性的异构集成分类检测模型进行检测,做出了一系列积极探索和深入研究,并得出了一些具有显著优势的实验结果,从而为推动相关理论方法的进一步研究以及未来在不同场景中的应用,做出了一些有价值的工作。
其他文献
<正>在我国,中小企业已成为推动国民经济发展,构造市场经济主体,促进社会稳定的基础力量。在确保国民经济适度增长、缓解就业压力、实现科教兴国、优化经济结构等方面发挥着
目的:探讨传统排班与APN排班在护理工作中的应用效果,以提高护理工作效率和护理质量。方法:改变传统排班,实行APN排班,实施前后分别对患者、医生、护士发放调查表,所得结果进
<正>教学目标:1.在具体生活情境中感知并认识质量单位克和千克,初步建立1千克和1克的质量观念,知道1千克=1000克。2.通过实践活动,了解用秤称物体质量的方法,培养观察能力、
选择某镍镉电池企业进行在岗期间职业健康检查的241名镉作业工人作为接触组,以当地无职业性镉接触史的96名受检者作为对照组,测定尿镉、尿β2-微球蛋白、白细胞(WBC)、中性粒
江泽民同志在北京师范大学百年校庆大会上的讲话是马克思主义教育思想的重要文献。教育创新是时代的要求,科教兴国的要求。教育创新要以"三个面向"为指针,按照"三个代表"的要
目的:对比分析两种采血方法在血常规检验中的临床效果。方法:选择162例健康人员,将其按照取血方法划分为末梢组和静脉组,每组81例,分别对两组患者采血进行常规检查,比较两组
“实录”是中国史学传统中的重要概念 ,最早见于两汉文献 ,指司马迁史学的特点之一 :即史文之“直” ,史事之“核” ,史义之“不虚美 ,不隐恶”。北朝学者进而指出 :史官的职
<正>随着小学英语教学改革的不断深入,对学生综合运用英语能力的要求越来越高。根据《英语课程标准》的要求,英语阅读教学的根本任务不仅要完成传统阅读教学中传授语言知识、