互联网访问数据用户识别与兴趣度分析——电信用户数据

来源 :东华大学 | 被引量 : 0次 | 上传用户:renj19861123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的快速发展和电子商务以及电子产品的普及,网络信息资源的数量急剧增长。一方面,用户在浏览互联网时需要耗费大量的时间才能得到有用的信息。另一方面,信息提供商比如电子商务网站,也希望能够根据用户的偏好,从海量的商品信息中为用户推荐感兴趣或者需要的商品资源。  论文以某运营商的用户宽带访问记录为基础数据,通过对用户访问日志记录进行分析,挖掘出用户的兴趣爱好特征,从而实现商品信息的个性化推荐。用户访问一个网页时,互联网服务提供商(ISP)会记录用户的日志信息,称为用户访问日志记录,其中包含用户的访问行为相关信息。论文首先研究了基于K-Modes算法的独立用户识别技术,对日志记录进行会话识别分析,识别出属于同一个会话的日记记录集合,进而通过聚类技术识别出独立用户。在此基础上,提出了基于维基百科的语义消歧算法,并结合该算法研究了结合语义的用户兴趣特征分析技术,通过构建兴趣特征分类库,进一步实现了相似兴趣特征用户分类,为商品信息的精确推荐提供了基础。结合用户访问日志记录的海量数据特点和MapReduce在大数据处理以及算法的可扩展性上的优势,论文最后在Hadoop平台上设计并实现了这些算法。总结起来,论文的主要工作包含以下几个方面。  独立用户识别技术研究。将用户识别过程分为数据清洗、会话识别、Cookie提取和用户识别四个步骤。数据清洗是删除冗余和无效数据,在此基础上,提出了结合参引页和时间阈值的会话识别方法;通过对Cookie数据的分析,提取出表示用户登录常用网站的用户名字段,最终确定了能够有效判断独立用户的十个字段,基于K-Modes算法的用户识别技术,通过聚类从日志记录中识别出独立用户,并为其编号。  用户兴趣特征分析技术研究。首先,分析了总体的业务流程,根据用户的搜索关键字,通过分词技术,提取出特征关键字;结合维基百科语义词典,提出了中文语义消歧算法,研究了兴趣特征关键字消岐技术,从而得到每个用户的兴趣特征。基于用户在每个词语中相同的语义和分类下的词频统计,为其标识权重;在此基础上,通过构建一个兴趣特征分类库,并根据特征分类库中的每一个分类词与用户的相似度,实现了相似兴趣特征用户的分类。  结合所研究的独立用户识别和用户兴趣特征分析技术,论文在Hadoop环境中设计并实现相关算法。首先分析了系统的整体架构,将系统分为用户识别和用户特征分析两个子系统;并进一步将用户识别子系统分为数据清理、会话识别、Cookie提取和用户识别四个子模块,将用户特征分析子系统分为关键字提取、用户兴趣特征提取和相似特征用户挖掘三个子模块。详细分析了各个模块的执行过程,并给出了关键模块的核心代码实现,验证了课题所研究技术的有效性。
其他文献
论文研究与分析了个性化信息服务,给出了基于Ajax的用户个性化定制。基于Ajax的用户个性化定制是在Web2.0的基础之上,运用正在兴起的Mashup思想,即聚合多个Web应用后生成一种
传感器、嵌入式计算、分布式信息处理和无线通信四大技术孕育了无线传感器网络(WSN),无线传感器网络是一种全新的信息获取技术,在军事,监控,医疗救护等众多领域中得到了越来越广
本论文研究了分布式核心路由器的体系结构,以及链路聚合技术,设计出分布式高端核心路由器的链路聚合方案,编程实现了链路聚合方案中的各个软件功能模块,并在分布式高端核心路
近十几年来,因特网上的各种信息以呈指数级的速度增长,使得因特网用户想要快速找到其真正所需要的资料信息变得越来越困难。在海量因特网信息带来信息过载和信息迷失问题而人
基于GPRS的学生奶自助服务系统以国家推行的“学生饮用奶计划”为背景,使用自动售奶机来出售牛奶,并通过GPRS网络对自动售奶机进行实时监控,解决人工管理中的成本高、工作量
云计算作为未来计算模式的趋势及新一代信息技术和商业模式变革的核心,受到了越来越多的研究人员和企业的关注,具有广阔的市场发展前景。目前几乎所有IT企业巨头都依据各自的技
随着数据库技术的迅速发展以及数据库管理系统的广泛应用,数据呈海量增长,出现了“数据爆炸但知识贫乏”的现象。在这种情形下,数据挖掘作为处理海量数据的工具便应运而生了
无线自组网(Ad Hoc网络)是一种具有自组织能力的移动分布式多跳无线网络。它可以快速部署和配置,适用于一些临时的、应急的场合,具有广阔的发展前景。该种网络中节点一般靠电
随着大规模并行计算技术的发展,特别是多核技术的不断进步,主流CPU厂商都在致力发展多核处理器,增加芯片支持的并行能力,从而突破半导体工艺的技术壁垒,提升运算速度。同时,在并行
随着互联网技术的迅猛发展,网络舆情监管工作的重要性逐渐被人们认同。目前,网络舆情分析技术已经成为国内外的研究热点,并取得了一定的研究成果,主要的研究领域包括:话题检