基于机器学习的机器流量识别

来源 :电子科技大学 | 被引量 : 1次 | 上传用户：bbyyqq555

【摘要】

：

随着互联网规模的爆炸式增长扩大,产生了越来越多的由自动化程序等非人类产生的流量,即机器流量。其中有的是搜索引擎的蜘蛛程序,可以帮助我们提高搜索效率和搜索质量,有的是

【作者】

：

谢鑫

【出处】

：

电子科技大学

【发表日期】

：

2020年01期

【关键词】

：

机器流量 CNN Web日志 EP-CNN 机器学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网规模的爆炸式增长扩大,产生了越来越多的由自动化程序等非人类产生的流量,即机器流量。其中有的是搜索引擎的蜘蛛程序,可以帮助我们提高搜索效率和搜索质量,有的是批量查询并抓取网页数据的爬虫程序,以便低成本获得网站的资源,有的是模仿人类进行网页浏览的刷浏览量程序,通过数据造假为自己带来商业利益,更甚的是利用互联网对个人、企业以及政府单位等进行网络攻击的计算机病毒程序,它会对人类社会造成极大的损失和危害。由于计算机与互联网在当代人的工作生活中扮演着举足轻重的角色,因此机器流量无论是对个人、企业还是政府等都有着重大影响。通过对机器流量的准确识别有助于我们更加合理的利用互联网并防范其危害,也让我们对互联网的认识更清晰。近几年,机器流量占到了互联网全部流量的一半左右。在互联网上,有对人类有好处的机器流量,也有对人类有坏处的机器流量,它们各占总的机器流量一半左右,所以这两种机器流量带来的影响不可忽略。从机器流量中识别出善意和恶意的机器流量可以帮助我们合理的利用善意流量并针对恶意流量做好防范措施,从而保护网站数据和网站安全。所以研究机器流量的识别和分类是迫切的且非常有意义的。本文通过使用海量Web日志,研究了不同机器学习算法在机器流量识别中的应用方案,具体研究工作如下:提出了一种Web日志的预处理方法。针对Web日志的众多字段,筛选出对于机器流量识别研究有相关性的字段,通过设计数据预处理模块实现了处理后的单条日志数据与多条原日志数据之间的关联,解决了单条日志数据的识别问题。对比不同机器学习算法之间的优缺点,提出了基于传统卷积神经网络(Convolutional Neural Networks,CNN)改进的弹性池化层-卷积神经网络(Elastic Pooling-Convolutional Neural Networks,EP-CNN),设计并实现了基于深度学习的机器流量和人类流量的分类模型,并且进一步实现了善意和恶意流量的分类模型,通过大量实验得到这些模型的最佳参数设定值。实验结果表明,基于深度学习的识别算法普遍比基于传统机器学习的识别算法表现更好,能达到较高的性能指标,其中,EP-CNN综合表现最好,有较高的准确率以及较小的性能开销。最后,针对论文的研究内容进行归纳,并对后续的研究工作进行分析总结及展望。

其他文献

合成氨高负荷运行的瓶颈浅析与对策

分析和探讨制约合成氨装置高负荷的瓶颈问题，介绍应对措施和效果。

期刊

合成氨装置制约措施

中泰中小企业发展扶持政策的对比分析与启示

中小企业在我国国民经济中的作用越来越重要,促进中小企业发展不仅可以发展产业,稳定税收收入,还可以增加就业岗位。本文通过对比分析中泰中小企业扶持政策,归纳总结出泰国中

期刊

中小企业发展扶持政策中泰比较

论自招侵害与正当防卫

自招侵害从字面上可理解为:自我招致不法侵害。所谓“侵害”,是指涉正当防卫案件中的不法侵害。而“自招”是指不法侵害由防卫行为人自身有责地引起。“自招”强调引起不法侵

学位