【摘 要】
:
信息化时代的来临使得PC计算机数量急剧膨胀,伴随而来的是恶意软件带来的危害。恶意软件包括病毒、特洛伊木马、勒索软件、广告软件等,对个人和商业计算机造成了严重的安全威胁,并且其危害程度在逐年上升。对恶意软件做到即时、有效的预测显得尤为重要。本文选择kaggle平台的开源数据集,对计算机感染恶意软件这一主题进行二分类预测,以探究集成学习算法在网络安全相关的多维数据预测过程中的应用。本文在Hadoop框
论文部分内容阅读
信息化时代的来临使得PC计算机数量急剧膨胀,伴随而来的是恶意软件带来的危害。恶意软件包括病毒、特洛伊木马、勒索软件、广告软件等,对个人和商业计算机造成了严重的安全威胁,并且其危害程度在逐年上升。对恶意软件做到即时、有效的预测显得尤为重要。本文选择kaggle平台的开源数据集,对计算机感染恶意软件这一主题进行二分类预测,以探究集成学习算法在网络安全相关的多维数据预测过程中的应用。本文在Hadoop框架中完成对数据的储存、集成、预处理和算法处理等一系列数据挖掘所需要的过程。首先,为实现高效的数据挖掘流程,基于分布式文件系统储存数据集,并基于Hive数据仓库完成对数据的集成和预处理过程,对各属性列与预测标签进行数据分析,判断预测可行性。其次,经数据清洗后的数据集属性用于构建原始特征,并利用原始特征进行衍生特征的构建,使数据集特征数量增至181。再次,使用集成学习中的XGBoost、Light GBM和随机森林三种算法分别构建恶意软件感染预测单模型,并进行评估和调优,三种单模型的AUC指标均高于传统决策树算法0.1以上。最后,基于模型融合思想进行模型构建,选择逻辑回归和随机森林基于三种单模型进行Stacking融合,AUC对比基于方差倒数法的线性融合模型提高0.02,并且Stacking模型中以随机森林作为再次学习算法的预测性能优于逻辑回归。本文利用原数据集中的有效信息并建立二分类模型,最终实现了对计算机是否感染恶意软件的有效预测。
其他文献
二次供水作为城镇供水系统的“最后一公里”,是一项重要的民生工程,是增进人民福祉的基础保障。二次供水泵房能耗在整个城市供水系统能耗中占比较大,多数泵房能耗高的问题亟待解决。为提高二次供水设备效率,充分发挥叠压供水设备节能优势,本文主要针对叠压供水设备节能分析与运行优化进行以下研究:首先,研究叠压供水设备能耗组成和各个能量传递环节中效率与调速比关系,综合分析确定设备调速比范围为75%~100%。根据各
石墨烯的成功剥离,打开了探索二维半导体材料的大门。二维半导体材料优异的物理性质、实验室上的成功制备、广泛应用在纳米电子和光电领域等方面使其成为材料研究领域的焦点。但单个的二维材料不可避免地存在一些缺陷。两种或多种二维材料通过层间范德华力垂直堆叠在一起形成的范德华异质结构的出现弥补了单个二维材料的不足并获得了愈加优异的特性。这种异质结构材料选取多样、简单;形成后具有特殊的界面态;易于调控的电子结构等
出租车凭借方便、快捷、舒适度高等优点,广受出行者的喜爱,一直是城市居民常用出行方式之一。然而,随着城市传统出租车数量的增加及网约车的出现,出租车交通事故率也逐渐上升,对交通安全提出了巨大挑战。传统交通安全分析方法原理简单易懂,但缺乏对交通系统宏观层面的把控,本质上属于“事后补救”。近年来,学者们开始引入“交通安全规划”的思想,宏观规划层面的要素被纳入研究范畴,以交通分析小区(TAZ)为基本单元,分
植被净初级生产力是生态系统碳循环的重要环节,是调节生态过程的主要因子,直接反映了植被在自然环境条件下的生产能力和陆地生态系统的质量状况,在全球气候变化和碳平衡中扮演着重要的角色。因此,研究渭河流域植被净初级生产力时空变化特征、探究其对环境因子的响应情况及未来发展趋势,具有重要的理论与现实意义。本文基于遥感影像数据、气象观测数据、数字高程模型数据和土地利用类型数据等,以Arc GIS10.2、ENV
振动搅拌作为提高混凝土搅拌质量和效率的有效方法,已经在实际工程中得到了良好应用。然而在使用中发现,由于机器实测振动强度和振动分布规律与设计结果不一致,存在着混凝土产品质量不稳定、机器运转稳定性和可靠性差等问题。不合理的激振结构与参数是造成问题的重要原因之一。因此,本课题研究对提高振动搅拌机械的技术水平,充分发挥振动搅拌对混凝土材料的改善效果,具有重要的理论和实用价值。本文采用理论分析、计算机仿真和
随着工业物联网运营环境的逐渐成熟,在家具行业中,其生产线将逐步向自动化、智能化和网联化方向发展。在生产线升级的过程中,首先要解决板材特征边识别与匹配的问题。只有正确识别板材的各个特征边之后,加工设备才能与数据库中的信息匹配,并对板材做出相应的动作,避免误加工。因此,针对上述问题,本文设计了一种基于嵌入式的板材特征边识别系统。该系统具有一定的灵活性与智能性,可在满足精度要求的情况下完成识别与匹配任务
在大数据时代背景下,如何将海量数据进行有效存储成为当下研究热点。传统的集中式存储曾短暂解决过这一问题,但其存储代价高昂且存在系统性能瓶颈,使得分布式存储系统逐渐代替其成为海量数据存储的首选方案。分布式存储系统具有成本低廉、可扩展性高的特点,目前对分布式存储系统的研究主要集中在存储节点故障时如何对其进行修复,保证分布式存储系统的可靠性。分布式存储系统中,常见的故障节点修复策略有复制策略与纠删码策略,
当下水体的面源污染已成为我国长江、黄河等重要流域污染的主要成因,其中农业生产中农药的使用是导致该现象的主要诱因之一。阿特拉津(ATZ)作为我国使用最广泛的除草剂之一,已经在水体和土壤等自然环境中被检出,其对人体有“三致”危害,且在环境中难降解、易富集,严重威胁生态系统和人体健康。因此有必要采取合理的方法解决水体中ATZ污染问题。常规的水处理技术难以将水体中的ATZ去除,高级氧化技术成为解决ATZ污
随着信息网络的搭建、全球化市场的形成,市场对产品的响应速度有了更高的要求。在企业分布式库存系统的管理中,单纯采用纵向的补货策略已不足以应对需求变化和市场不确定性。因此,同级库存点之间的横向库存调拨策略应运而生,该策略具有灵活性高、响应时间短的特点,被认为是提高分布式库存系统性能的一种有前途的策略。在对横向转运策略的主动和反应两种转运方式的对比分析后,发现主动转运策略现有研究文献少、复杂度大,且存在
随着交通工具的普及,如何提高路面质量成为研究的热点,各种因素的变化导致路面信息采集系统很容易出现故障,造成异常数据的出现,因此异常值的检测及修复十分有意义。随着数据挖掘技术的崛起,机器学习在路面异常数据的检测、修复中也取得了重大的突破,因此本文提出一种基于机器学习的沥青路面感知数据异常状态辨识与修复方法,并对其进行了深入研究。首先,构建沥青路面温湿度一维感知数据集,采用基于统计的算法:3σ准则、箱