基于机器学习的Windows恶意软件识别研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:pbsiszx1234567
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网基础信息设施的发展,衍生了更多的攻击面和攻击技术,产生了大量的安全事件,其中以恶意软件为基础的安全事件影响较大。随着人工智能技术的发展,我们能够使用机器学习来检测恶意软件,相较于传统检测技术,这是分析和检测恶意软件的一个新视角。本文设计和实现了一个恶意软件特征提取工具箱,此外,为满足粗粒度检测恶意软件的要求,提出了基于机器学习的恶意软件二分类检测模型,为了更具体地识别恶意软件的种类,提出了基于深度学习的恶意软件多分类检测模型。恶意软件特征提取工具箱,实现了恶意软件动态行为数据的提取、预处理、探索性数据分析、特征化和向量化。特征提取工具箱包括数据提取、数据预处理、探索性数据分析和数据特征化模块,其中,本文通过分析不同恶意软件的行为特征,从统计学习和自然语言处理维度,向数据特征化模块中封装了多种特征化方法,包括统计特征方法、N元语法、词序列索引方法等,实现了恶意软件行为数据的特征化和向量化,用于支撑上层的机器学习和深度学习算法。基于机器学习的恶意软件二分类检测模型,基于恶意软件特征提取工具箱,从统计学角度,提取恶意软件动态行为数据的全局统计特征和局部统计特征。从自然语言处理维度,利用N元语法提取恶意软件动态行为数据的2-gram特征和3-gram特征,通过SVD降维,得到恶意软件动态行为数据的自然语言处理特征。融合统计特征和自然语言处理特征,基于融合特征,利用Light GBM算法二分类检测恶意软件。最后,本文设计了多组对比实验评估了此恶意软件二分类检测模型的性能。实验结果表明,基于融合特征和Light GBM的恶意软件二分类检测模型,相较于决策树、随机森林等方法,性能最优,对恶意软件的二分类检测准确率达到了97.9%。基于深度学习的恶意软件多分类检测模型,使用词序列索引方法提取恶意软件动态行为特征,结合本文设计的Malware CNN深度学习模型,识别多种恶意软件。Malware CNN相较于其他深度学习模型有三点改进,一是通过分析研究恶意软件的动态行为特征,发现卷积神经网络中的卷积层和空洞卷积层可以通过构建大量局部特征,一定程度上有效地对恶意软件长序列行为建模,二是加入了Attention机制,进行长距离语义建模,针对性学习不同恶意软件的动态行为特征。三是通过对恶意软件实际行为数据的分析和探索,设置了嵌入层、卷积层等神经网络层超参数。实验结果表明,Malware CNN识别4种不同类别恶意软件的精确率和召回率达到89.6%,相较于其他深度学习模型,Malware CNN模型性能最优。
其他文献
大学生是新时代青年的代表,在思想方面,必须坚定理想信念,做讲政治的新青年。在思想政治教育学习中,大学生切实有所得、有所感,有助于大学生构建正确的认知结构。本文详细阐述了思想政治教育获得感内涵、大学生思想政治教育获得感现状及如何提升大学生思想政治教育获得感。并以马克思主义人学理论和心理学学习理论为理论基础,根据心理学学习理论中的认知主义、人本主义和行为主义分析出思想政治教育获得感的基本构成。以认知、
机械装配质量直接影响机电产品的整体质量,其检测是复杂机电产品制造质量保证的重要组成部分。现代机械制造正朝着轻量、高速、高效、高精度、智能化的方向发展,这对装配质量检测提出了更高的要求。如何建立一套功能全面且操作简便的检测指标与规范方法,是机械装配质量检测领域的重要问题。目前,常规的机械装配质量检测主要集中在诸如公差与尺寸协调性等的“静态质量”指标,尚缺乏装配“动态质量”的关注和研究,这不利于产品整
随着5G通信时代的到来,人工智能、云计算和物联网等相关行业的不断壮大,越来越多的数据以流的形式增长。由于数据随时间不断涌现,因此难免出现结构分布改变的现象,即概念漂移
自古以来,知阴谋、善使阴谋者大有人在。关于如何使用阴谋的书籍在西方著作中以《君王论》为代表,而东方著作更是络绎不绝:自《鬼谷子》一书宣扬趋炎附势,讲究为达目的,誓不
本文基于提高税收风险管理水平的要求和热力行业增值税管理的现实状况,对热力行业增值税税收风险识别进行研究。首先对热力行业生产经营规律和增值税管理现状做了简要介绍,深入分析当前热力行业增值税税收风险产生的原因,归根结底是由于缺少一套科学有效的税收风险识别模型,归纳整理税收风险的主要表现和这些表现在税务机关掌握数据上的反映,为税收风险识别模型的建设打好基础。为了能够更加准确有效地建立热力行业增值税税收风
伴随着互联网技术的日渐普及,越来越多的用户开始接触社交网络并养成了使用社交网络的习惯。人们关心的日常话题会在第一时间以最快的速度通过社交媒介传播开来,尤其是与人们生活密切相关的国民安全话题。突发话题出现时,大量的相关舆情信息会在以微博为代表的社交网站中传播。为了能够迅速准确地检出相关的突发话题,本论文实现了海量数据的实时采集和突发话题检测、挖掘与演进规律发现系统,采用自然语言处理技术等高效地检测突
地震发生后,如何快速获取灾区震情信息、绘制地震烈度图并准确评估地震灾情,是震后应急救援的关键问题。目前对于地震烈度的评估,尚未用到植被这一变化因素,但这一因素有以下几个优点:(1)植被覆盖反演有成熟的手段和方法;(2)计算简便,节约时间;(3)用于反演植被覆盖的遥感数据源很多。本文旨在探究地震前后植被覆盖的变化与烈度之间的关系,并分析地震前后植被覆盖的变化能否作为评估烈度的参考依据。目前的研究中,
在近现代科学发展史上,许多重要的、原创的科研成果都来自于优秀的科研团队。科研团队能够实现团队间的信息资源共享,提高科研生产率和促进科研创新。国家的科技体制改革以及《国家中长期人才发展规划纲要》已明确提出推进科研团队发展,因此科研团队的重要性不言而喻。由于科研团队数量的增多,相应的也出现了一些问题。现阶段,评审专家通过科研团队提交申报表进行科技创新团队评审工作,申报表内容多是文字形态,不能够直观地展
从历史上看,美国加息周期一般伴随着全球金融市场的震荡,并对随后的经济增长形成了扰动。本文通过将二十国集团作为研究对象,首先通过建立面板VAR模型,考察与研究美联储加息周期对全球造成的一般宏观经济效应,其次通过建立时变参数VAR模型,考察与研究美联储加息周期对每一个单独经济体造成的个体宏观经济效应,并对比分析了其异质性及时变性。研究结果表明,第一,美联储加息显著导致全球利率跟进上涨、货币大幅度贬值,
随着当今人们生活节奏的加快,汽车作为重要的交通工具,保有量正在快速增加,与之伴生的交通安全事故也呈现出逐年增加的趋势,而汽车防撞避碰系统可以有效避免交通事故的发生。