论文部分内容阅读
目前互联网上每天爆发着海量的信息,搜索引擎成了我们查找信息的最重要的工具。然而搜索引擎所提供的信息检索服务大多数仍然是大众化的,这种综合性搜索引擎往往不能满足特定用户面向特定领域和特定主题的个性化的信息需求,而且这种情况下召回率和精确率都是很低的。个性化搜索引擎为解决此问题而诞生。本文设计并实现了这样一个个性化搜索引擎。
本文在深入研究了搜索引擎日志分析和元搜索引擎的基础上,通过日志分析挖掘用户兴趣,利用用户兴趣实现搜索引擎的个性化,将二者有机的结合起来,构建了一个基于搜索引擎日志分析的个性化搜索引擎。论文完成了日志分析和个性化搜索引擎的研究与设计工作,并且对系统进行了相关测试。本文的主要研究工作有以下几点:
1.对日志采集技术做了详细的研究,介绍了目前主要的两种信息采集技术:页面标签技术和服务器日志技术,在此基础上设计并实现了一种基于页面标签的日志采集技术,使用这种技术在专门日志服务器上生成日志,减轻了日志清洗的负担,也减轻了web服务器的负担;
2.使用shell脚本实现了日志的自动传输,为了保证传输的可靠性,设置了重传机制。另外为了减小日志传送失败所带来的损失和使用的方便,在日志传输前对日志进行了分割和打包压缩,传输完成后又对其解包解压缩和合并;
3.对日志分析技术做了简单的总结,并对论文中日志分析要用到的关键技术-基于HDFS和MapReduce做了比较详细的介绍。日志分析阶段鉴于查询日志和点击日志的分析过程,为避免重复叙述,着重介绍了点击日志的分析过程,并利用MapReduce实现了日志分析,通过日志分析,提取了代表用户兴趣的关键词及其权值,并利用它来建立用户兴趣模型;
4.设计并实现了一个元搜索引擎,并利用日志分析结果建立的用户兴趣模型,对元搜索引擎返回的结果进行过滤,实现了个性化搜索;
5.在此过程中设计并实现了一种基于用户聚类的个性化检索算法,极大的提高搜索引擎的性能;
最后,通过分析系统运行时的数据,证明系统已成功达到了预期的目标。