基于Xgboost算法的欺诈网页检测方法研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:dadada123sasasa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术近20年的发展和应用,人们的生活与网络变得越来越紧密。与此同时社会上出现了许多企图利用互联网技术来危害网络用户身心健康和财产安全的不法分子。欺诈网页是不法分子常用的一种欺诈手段,通过伪装网页链接和网页内容等行为来欺骗搜索引擎和网络用户,从而达到散布黄色、赌博或毒品信息以及盗取用户隐私等目的。因此如何准确的识别欺诈网页是目前迫切需要解决的问题。由于欺诈网页数据量远少于正常网页,导致传统分类算法难以充分学习欺诈网页特征,最终难以正确识别欺诈网页。本文选择Xgboost算法作为基础检测算法,着重研究欺诈网页数据不平衡对算法的影响,提出了基于梯度分布调节策略的Xgboost算法(LCGHA-Xgboost),通过损失贡献密度(Loss Contribution Density,LCD)来衡量Xgboost算法正确分类样本的代价,依据损失贡献密度调整样本个体的一阶梯度分布,提高欺诈网页损失量占比,帮助Xgboost充分学习欺诈网页特征信息,从而达到增强欺诈网页检测准确率的目标。对比实验表明,LCGHA-Xgboost算法相比其余对比算法可以有效的提高欺诈网页等难分样本的识别检出能力。此外本文深入研究欺诈网页和正常网页被错误分类后会产生不同代价的问题,构建了代价敏感欺诈网页检测机制。该机制在Xgboost算法中引入代价敏感学习技术,提出基于代价敏感的Xgboost算法(CS-Xgboost),CS-Xgboost改进蝙蝠算法,寻找最优误分类代价参数,从而提高欺诈网页检测准确率。蝙蝠智能进化算法(Bat Algorithm,BA)存在后期搜索精度不够、易陷入局部最优等问题,提出了基于柯西变异和位变异的动态权重蝙蝠算法(CBDW-BA)。将代价敏感Xgboost算法封装成改进的蝙蝠算法的适应度函数,从而将代价敏感学习中误分类代价参数作为进化算法的寻优问题,以分类算法AUC值作为适应度函数的适应值,构建了代价敏感欺诈网页检测机制(CSSDM)。该机制一方面保证了代价敏感算法的分类性能,另一方面避免了人为确定误分类代价的影响。为了验证该机制的有效性,本文首先针对改进的蝙蝠算法进行性能测试实验,实验结果表明该方法寻优性能和收敛性能均得到了大幅增强。接下来,再选择多种传统集成学习算法和近年优秀研究成果作为对比算法进行实验,实验结果表明本论文提出的代价敏感欺诈网页检测机制(CSSDM)优于其余对比算法,有效地提高了欺诈网页检测性能,减小分类错误造成的损失。
其他文献
随着健康建筑为国家所积极倡导,大连市居民健身的积极性也随之高涨,室外健身空间带来的环境便利不同于室内,能够同时满足人们的健身需求和城市健身文明的传播,大连作为北方沿海城市中具有传统运动文化的城市,其地理位置与气候特征均满足一年四季进行健身活动的条件。同时,健身需求人群逐渐年轻化,青少年阶段亦是人生的重要阶段。因此,室外健身空间应根据人群及地域适应性进行调整。本文以适应青少年的大连室外健身空间为研究
随着超大跨径斜拉桥的迅速发展及其施工精度要求的提高,所需匹配的斜拉索长度大幅增加,并且我国的大跨度斜拉桥一般采用平行钢丝拉索,此类拉索制成后其长度无法改变,以致于需要较高的索长精度控制要求。以往的斜拉桥施工中斜拉索的索长误差普遍存在,若误差过大会影响斜拉索的正常锚固。导致索长误差的原因有许多,其贯穿于斜拉索张拉控制力与无应力索长的计算到施工现场挂索锚固完成的全过程。本文以实际工程为背景,对平行钢丝
语文教材是教师教学、学生学习的媒介,也是学生学习其他科目的基础。部编版初中语文教材是由教育部组织编写,在2016年秋季投入使用的新版语文教材,无论是教材的编写理念,还是教材的选文内容,以及教材的编排方式等都具有较为显著的优势。因此,本文以部编版七年级语文教材为研究对象,首先,从整体上探究部编版七年级语文教材编写的依据、编写思路及编写特点;其次,从教材体例和内容两个方面分析教材,希望为一线初中语文教
中国近代女性留美教育是中国近代留学教育史的重要组成部分。虽然近代留美女学生群体整体人数不及留美男学生,但是她们在近代中国社会发展中做出的积极贡献不容忽视。基于以上考虑,本文以1880—1937年间留美女性教育为研究对象,深入探究中国近代女性赴美留学的发展历程,理清历史脉络,以期进一步完善中国近代女子留学史的研究。本文共分三个部分,通过文献资料、数据分析、个案分析等研究方法,以中国近代女子教育发展与
随着当今世界高速的科技发展和发达国家新一轮的产业变革,全球经济的发展正在蓬勃向前。为了抓住这一波经济发展的浪潮,国家对工程教育的改革和发展提出了新的要求。在教育部大力发展“新工科”的时代背景下,高校越来越重视对工科学生的综合素质的培养。如何对学生综合素质进行评价,是工程教育改革中的关键一环。建设信息化、数字化的综合素质评价系统能够为整体评价工作的开展提供更便捷的途径,对高校素质教育的改革具有重要意
近几年,随着快手、抖音等短视频平台的兴起,以土味视频、土味情话、土味表情包为代表的土味文化在互联网上掀起热潮。土味文化作为中国独特的亚文化实践形式走进了社会大众的视野,并演变为全民狂欢的网络文化盛宴,引起了学界和业界的关注。但学术界对其定义尚不明确,笔者通过综合分析后,将土味文化界定为:以90后为主的青年群体在网络空间中通过土味视频、土味表情包、土味情话为主要形式,呈现出的一种具有戏仿、拼贴和反讽
弗朗茨·舒伯特的生命非常短暂,直到去世很久以后,其作品才被人发掘。他创作的钢琴奏鸣曲却常被人们无视,这首奏鸣曲是舒伯特创作的最后一首“未完成”作品,乐思表达非常完整,同时也被后人所肯定,对于这首“未完成”奏鸣曲的艺术钻研价值甚至超越了部分形式结构已完整的作品。笔者想结合自己演奏,以切身的感受和心得对这首曲子的演奏技巧进行客观总结和展现。本文从舒伯特本身经历出发,简单提及其钢琴奏鸣曲方面的内容,特别
心智模态命题是说话人在意向性作用下,通过选用相信、喜欢、坚持等不同种类的心智模态动词,操作于相应对象或意向域的心智活动加工的结果。心智模态命题分为三类:认知模态命题,情感模态命题和意志模态命题。无论是日常口语表达还是书面表达都会出现不同种类的语言表征的心智模态命题。而作为书面语篇的政治语篇,出现多种语言表征的心智模态命题。通过研读相关政治语篇研究的文献,发现从心智哲学意向性层面探讨政治语篇中语言表
小学中年级处于人生写作的起始阶段,这一时期对于习作兴趣的培养尤为关键,直接影响到学生未来写作的成败。然而在实际教学中,学生习作兴趣又明显不足。论文以探究小学中年级习作兴趣培养的教学策略为目标,结构为:绪论提出问题、第一章观察分析、第二章策略假设和第三章实践检验。本研究采取“问题——观察——假设——检验”路径过程,期望找到培养小学中年级学生习作兴趣的教学基本规律。第一章通过观察与调查,从教学的层面分
四旋翼无人机结构简单、成本低、具有良好的灵活和机动性,已广泛应用于军事侦察、空中航拍和农业植保等领域。为了满足无人机在复杂环境下紧急规避,以及特殊任务对无人机飞行