论文部分内容阅读
随着Web信息的爆炸式增长,如何快速、准确地从浩瀚的信息资源中寻找到所需信息已经成为困扰人们的一大难题。传统搜索引擎技术满足了人们一定的查询需要,但由于其通用的性质,仍然不能满足不同背景、不同目的和不同兴趣爱好的用户个性化需求。个性化信息搜索服务就是针对这个问题提出来的。个性化信息搜索服务是指针对不同用户的不同特点提供不同的服务策略和服务内容,其实现方式可以在客户端,也可以在服务器端。本文主要研究的是客户端个性化信息搜索服务。本文讨论了一般搜索引擎系统的结构和工作过程,阐述了实现搜索引擎的各个关键技术,提出了下一代搜索引擎即个性化搜索引擎的定制服务的发展过程,讨论了个性化信息搜索服务定义、分类及其特点,以及客户端个性化搜索引擎体系架构和个性化相关算法等。用户兴趣的获取技术可分为被动获取和主动获取两种方式。本文提出的基于模板的用户个性化搜索把两种方式结合起来,其中建立初始用户兴趣描述的实现属于被动获取方法,主要是利用用户对模板的信息输入来获取用户的兴趣信息,从而初步获得用户的兴趣模型;收集用户反馈信息的实现属于主动获取,它不需要用户亲自输入自己感兴趣的内容,而是从用户平时的网络浏览习惯去主动发现用户的兴趣,进一步优化用户兴趣模板。本文实现的基于用户隐式信息的个性化搜索也是属于主动获取方式。根据目前个性化信息搜索服务的分类特点,针对存在局域网的网络,本文提出了一种三级用户兴趣结构模型。即在客户端和局域网服务器端同时实现个性化处理,这样可以让用户体验更完美的个性化信息服务。另外,针对目前描述用户兴趣用一元组的向量描述方法,本文提出了新的用户兴趣描述方法。第一种是用森林结构来描述用户兴趣,这样,用户兴趣的各方面会得到更合理的表述。还有一种是根据前面提出的三级兴趣结构模型引申出的多级结构来描述用户兴趣。最后,本文在Windows平台上使用Java语言以及Lucene工具包,开发了一个基于Lucene的全文搜索引擎实验原型系统,在此基础上实现了本文提出的几种个性化信息服务的研究思路。针对目前还没有一种搜索引擎反馈给人们按日期排序的新闻搜索结果的状况,本文设计的新闻排序搜索系统具有现实的意义。最后进行了全文总结并提出了进一步研究工作的设想。