基于点击识别的用户行为与兴趣分析

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户：sniper0928

【摘要】

：

互联网的快速发展,改变了人们生活的方方面面。用户在互联网上产生的数据记载着每个人的生活轨迹,兴趣爱好,生活习惯,以及整个社会的流动轨迹和喜好。如何分析和利用数据中的

【作者】

：

林湘粤

【出处】

：

北京邮电大学

【发表日期】

：

2018年01期

【关键词】

：

互联网流量点击识别 Spark Streaming 社区发现

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

互联网的快速发展,改变了人们生活的方方面面。用户在互联网上产生的数据记载着每个人的生活轨迹,兴趣爱好,生活习惯,以及整个社会的流动轨迹和喜好。如何分析和利用数据中的信息,进而创造出对人们生活更有意义的价值,已经成为当今的热门研究课题之。本文首先提出了一种基于海量数据的实时用户点击识别方法,具体来说,就是通过构建HTTP请求的Referer图,提出点击请求识别规则,并利用实时流式处理技术Spark Streaming实现。为了进一步理解网络内部结构特征,本文将此点击识别的结果做了进一步的统计分析并构建网页结构二部图,从分析的结果中我们可以看到HTTP请求中的内部规律特性。最后,为了从用户请求的角度更好地理解用户行为,本文定义了网页结点亲密度的测量方法,并将复杂网络的分析方法应用到点击识别结果中,挖掘用户点击请求的社区聚集现象,并对实验结果进行了深入的研究和分析。本文的主要内容包括以下三点:第一、基于Referer的点击识别方法实现简单,并且可以解决不同用户对浏览器有不同操作习惯的问题,然而,在实现过程中,发现仅基于Referer的方法识别率并不高,于是在此基础上加入基于时间、文件类型的过滤规则,并提出了识别重定向请求的规则,提高了点击识别的准确性。结合不同识别方法,增加了点击识别的准确性。第二、目前有多种点击识别方法,其中不乏准确度高的算法,然而这些算法相对复杂,不适合应用在大规模实时的环境中,本文结合真实网络数据的特点,利用Spark Streaming,实现了近实时的大规模数据处理能力。第三、以往的社区发现算法大多数都是针对单个大型网站,本文分析的数据来自某高校总出口流量,其中包含了许多不同类别的网站。基于识别出的用户点击请求,本文中又通过基于用户相似度的亲密度测量方法,构建了点击请求之间的亲密关系图,找到网络结构中影响力最大的一些结点,发现网络结构中的社区聚集情况。通过实验结果,我们对网络特征和用户行为有了不同角度的理解。

其他文献

搞好三个关系构建和谐医院

文章从正确处理医院与患者、医院内部、医院与医院之间关系入手,运用理论与实践相结合的方法,论述了构建和谐医院的必要性和可行性,对医院发展具有指导作用。

期刊

和谐医院三个关系

浅谈初中物理导学案的编写和实施

在初中物理教学中合理应用导学案,有助于引导学生自主学习,锻炼学生的自主思维,这样既可以减轻教师的教学负担,又能促进学生全面、快速把握教学重点和难点。本文根据笔者对导

期刊

初中物理编写实施

生源对学生大学英语自主学习的影响及对策研究——以呼伦贝尔学院为例

自2003年呼伦贝尔学院升入教育部本科院校以来，学院本科生生源发生了较大变化。学院由过去绝对的西部生源的东部院校发展成以自治区西部学生为主，其他省市区学生为辅的综合型生

期刊