论文部分内容阅读
互联网的快速发展,改变了人们生活的方方面面。用户在互联网上产生的数据记载着每个人的生活轨迹,兴趣爱好,生活习惯,以及整个社会的流动轨迹和喜好。如何分析和利用数据中的信息,进而创造出对人们生活更有意义的价值,已经成为当今的热门研究课题之。本文首先提出了一种基于海量数据的实时用户点击识别方法,具体来说,就是通过构建HTTP请求的Referer图,提出点击请求识别规则,并利用实时流式处理技术Spark Streaming实现。为了进一步理解网络内部结构特征,本文将此点击识别的结果做了进一步的统计分析并构建网页结构二部图,从分析的结果中我们可以看到HTTP请求中的内部规律特性。最后,为了从用户请求的角度更好地理解用户行为,本文定义了网页结点亲密度的测量方法,并将复杂网络的分析方法应用到点击识别结果中,挖掘用户点击请求的社区聚集现象,并对实验结果进行了深入的研究和分析。本文的主要内容包括以下三点:第一、基于Referer的点击识别方法实现简单,并且可以解决不同用户对浏览器有不同操作习惯的问题,然而,在实现过程中,发现仅基于Referer的方法识别率并不高,于是在此基础上加入基于时间、文件类型的过滤规则,并提出了识别重定向请求的规则,提高了点击识别的准确性。结合不同识别方法,增加了点击识别的准确性。第二、目前有多种点击识别方法,其中不乏准确度高的算法,然而这些算法相对复杂,不适合应用在大规模实时的环境中,本文结合真实网络数据的特点,利用Spark Streaming,实现了近实时的大规模数据处理能力。第三、以往的社区发现算法大多数都是针对单个大型网站,本文分析的数据来自某高校总出口流量,其中包含了许多不同类别的网站。基于识别出的用户点击请求,本文中又通过基于用户相似度的亲密度测量方法,构建了点击请求之间的亲密关系图,找到网络结构中影响力最大的一些结点,发现网络结构中的社区聚集情况。通过实验结果,我们对网络特征和用户行为有了不同角度的理解。