论文部分内容阅读
随着互联网技术的快速发展和电子商务以及电子产品的普及,网络信息资源的数量急剧增长。一方面,用户在浏览互联网时需要耗费大量的时间才能得到有用的信息。另一方面,信息提供商比如电子商务网站,也希望能够根据用户的偏好,从海量的商品信息中为用户推荐感兴趣或者需要的商品资源。 论文以某运营商的用户宽带访问记录为基础数据,通过对用户访问日志记录进行分析,挖掘出用户的兴趣爱好特征,从而实现商品信息的个性化推荐。用户访问一个网页时,互联网服务提供商(ISP)会记录用户的日志信息,称为用户访问日志记录,其中包含用户的访问行为相关信息。论文首先研究了基于K-Modes算法的独立用户识别技术,对日志记录进行会话识别分析,识别出属于同一个会话的日记记录集合,进而通过聚类技术识别出独立用户。在此基础上,提出了基于维基百科的语义消歧算法,并结合该算法研究了结合语义的用户兴趣特征分析技术,通过构建兴趣特征分类库,进一步实现了相似兴趣特征用户分类,为商品信息的精确推荐提供了基础。结合用户访问日志记录的海量数据特点和MapReduce在大数据处理以及算法的可扩展性上的优势,论文最后在Hadoop平台上设计并实现了这些算法。总结起来,论文的主要工作包含以下几个方面。 独立用户识别技术研究。将用户识别过程分为数据清洗、会话识别、Cookie提取和用户识别四个步骤。数据清洗是删除冗余和无效数据,在此基础上,提出了结合参引页和时间阈值的会话识别方法;通过对Cookie数据的分析,提取出表示用户登录常用网站的用户名字段,最终确定了能够有效判断独立用户的十个字段,基于K-Modes算法的用户识别技术,通过聚类从日志记录中识别出独立用户,并为其编号。 用户兴趣特征分析技术研究。首先,分析了总体的业务流程,根据用户的搜索关键字,通过分词技术,提取出特征关键字;结合维基百科语义词典,提出了中文语义消歧算法,研究了兴趣特征关键字消岐技术,从而得到每个用户的兴趣特征。基于用户在每个词语中相同的语义和分类下的词频统计,为其标识权重;在此基础上,通过构建一个兴趣特征分类库,并根据特征分类库中的每一个分类词与用户的相似度,实现了相似兴趣特征用户的分类。 结合所研究的独立用户识别和用户兴趣特征分析技术,论文在Hadoop环境中设计并实现相关算法。首先分析了系统的整体架构,将系统分为用户识别和用户特征分析两个子系统;并进一步将用户识别子系统分为数据清理、会话识别、Cookie提取和用户识别四个子模块,将用户特征分析子系统分为关键字提取、用户兴趣特征提取和相似特征用户挖掘三个子模块。详细分析了各个模块的执行过程,并给出了关键模块的核心代码实现,验证了课题所研究技术的有效性。