论文部分内容阅读
随着互联网规模的爆炸式增长扩大,产生了越来越多的由自动化程序等非人类产生的流量,即机器流量。其中有的是搜索引擎的蜘蛛程序,可以帮助我们提高搜索效率和搜索质量,有的是批量查询并抓取网页数据的爬虫程序,以便低成本获得网站的资源,有的是模仿人类进行网页浏览的刷浏览量程序,通过数据造假为自己带来商业利益,更甚的是利用互联网对个人、企业以及政府单位等进行网络攻击的计算机病毒程序,它会对人类社会造成极大的损失和危害。由于计算机与互联网在当代人的工作生活中扮演着举足轻重的角色,因此机器流量无论是对个人、企业还是政府等都有着重大影响。通过对机器流量的准确识别有助于我们更加合理的利用互联网并防范其危害,也让我们对互联网的认识更清晰。近几年,机器流量占到了互联网全部流量的一半左右。在互联网上,有对人类有好处的机器流量,也有对人类有坏处的机器流量,它们各占总的机器流量一半左右,所以这两种机器流量带来的影响不可忽略。从机器流量中识别出善意和恶意的机器流量可以帮助我们合理的利用善意流量并针对恶意流量做好防范措施,从而保护网站数据和网站安全。所以研究机器流量的识别和分类是迫切的且非常有意义的。本文通过使用海量Web日志,研究了不同机器学习算法在机器流量识别中的应用方案,具体研究工作如下:提出了一种Web日志的预处理方法。针对Web日志的众多字段,筛选出对于机器流量识别研究有相关性的字段,通过设计数据预处理模块实现了处理后的单条日志数据与多条原日志数据之间的关联,解决了单条日志数据的识别问题。对比不同机器学习算法之间的优缺点,提出了基于传统卷积神经网络(Convolutional Neural Networks,CNN)改进的弹性池化层-卷积神经网络(Elastic Pooling-Convolutional Neural Networks,EP-CNN),设计并实现了基于深度学习的机器流量和人类流量的分类模型,并且进一步实现了善意和恶意流量的分类模型,通过大量实验得到这些模型的最佳参数设定值。实验结果表明,基于深度学习的识别算法普遍比基于传统机器学习的识别算法表现更好,能达到较高的性能指标,其中,EP-CNN综合表现最好,有较高的准确率以及较小的性能开销。最后,针对论文的研究内容进行归纳,并对后续的研究工作进行分析总结及展望。