基于日志分析的个性化搜索引擎的研究与实现

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:aaaaeeettjj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前互联网上每天爆发着海量的信息,搜索引擎成了我们查找信息的最重要的工具。然而搜索引擎所提供的信息检索服务大多数仍然是大众化的,这种综合性搜索引擎往往不能满足特定用户面向特定领域和特定主题的个性化的信息需求,而且这种情况下召回率和精确率都是很低的。个性化搜索引擎为解决此问题而诞生。本文设计并实现了这样一个个性化搜索引擎。   本文在深入研究了搜索引擎日志分析和元搜索引擎的基础上,通过日志分析挖掘用户兴趣,利用用户兴趣实现搜索引擎的个性化,将二者有机的结合起来,构建了一个基于搜索引擎日志分析的个性化搜索引擎。论文完成了日志分析和个性化搜索引擎的研究与设计工作,并且对系统进行了相关测试。本文的主要研究工作有以下几点:   1.对日志采集技术做了详细的研究,介绍了目前主要的两种信息采集技术:页面标签技术和服务器日志技术,在此基础上设计并实现了一种基于页面标签的日志采集技术,使用这种技术在专门日志服务器上生成日志,减轻了日志清洗的负担,也减轻了web服务器的负担;   2.使用shell脚本实现了日志的自动传输,为了保证传输的可靠性,设置了重传机制。另外为了减小日志传送失败所带来的损失和使用的方便,在日志传输前对日志进行了分割和打包压缩,传输完成后又对其解包解压缩和合并;   3.对日志分析技术做了简单的总结,并对论文中日志分析要用到的关键技术-基于HDFS和MapReduce做了比较详细的介绍。日志分析阶段鉴于查询日志和点击日志的分析过程,为避免重复叙述,着重介绍了点击日志的分析过程,并利用MapReduce实现了日志分析,通过日志分析,提取了代表用户兴趣的关键词及其权值,并利用它来建立用户兴趣模型;   4.设计并实现了一个元搜索引擎,并利用日志分析结果建立的用户兴趣模型,对元搜索引擎返回的结果进行过滤,实现了个性化搜索;   5.在此过程中设计并实现了一种基于用户聚类的个性化检索算法,极大的提高搜索引擎的性能;   最后,通过分析系统运行时的数据,证明系统已成功达到了预期的目标。
其他文献
随着P2P网络的高速发展,P2P技术带来的问题日益严重起来,大部分的ISP都有过封杀或者限制P2P应用的政策,但是P2P技术已经渐渐渗入到几乎所有的网络应用中。目前互联网中70%以上的
近些年,随着互联网的普及和广泛应用,不管是在各种文档、网上银行、收发e-mail,还是在其它对安全性要求极高的数字通信领域,加密技术已经成为了保证数据传输私密性的一个重要
在视频点播中,关键字查询为观众提供了从海量资源库中搜索目标节目的高效手段,同时Internet业务的开展也需要用户提交信息,这些都需要机顶盒具有中文输入能力。机顶盒主要采
增强现实(Augmented Reality,简称AR),也被称之为混合现实,在医疗、古迹复原和数字化文化遗产保护、工业维修、虚拟训练、娱乐与游戏等领域呈现巨大的应用价值,由于其广阔的
21世纪以来,在能源利用效率、节能环保等方面存在的问题日益突出,节能减排成为世界范围内各国共同关注的一项重点工程。能源互联网的提出,通过新世纪的互联网技术和电力能源
钢铁交易属于大宗交易买卖,在现实生活中大多采用人工操作的方式,在信息化高度发的今天已略显陈旧,虽然人工操作可以做到很灵活,但面对大量的数据与信息,人们很难做到百密无
时下自然的人机交互技术(HCI)研究异常活跃,各种新颖的人机交互技术不断涌现。基于视觉的手势交互由于其自然、直观和非接触式交互等特点,近二十年来一直是备受关注的研究热
指纹识别技术是生物特征识别技术中的一种,指纹的唯一性和稳定性使其有其他手段无法比拟的优越性。随着科技的进步和社会的发展,采集仪和芯片性价比不断提高,指纹识别算法的
随着虚拟仪器软件LabVIEW的出现,数据流编程方式渐渐地改变了传统文本语言编程的方式,图形化编程逐步扩大着编程语言开发的市场领域,另一方面,当前的指纹识别系统逐渐向着小型化
随着射频技术的发展,RFID被广泛的应用于物流、零售等众多领域。RFID系统中,多个标签同时回复阅读器时会发生碰撞。为了减少碰撞,提高标签识别效率出现了两类防碰撞算法,一类是基