论文部分内容阅读
在Internet信息大爆炸的年代,用户大量地借助搜索引擎获取所需信息。然而现有的信息检索系统基本对不同用户键入同一查询词返回同样的结果集,忽视了用户自身的知识领域背景和兴趣趋向,使用户陷入了信息资源迷航状态。为此,信息检索领域拓展开了一个新兴的研究方向----个性化检索研究。提供个性化检索的前提条件是要能准确地识别用户并合理的建立其知识兴趣背景。Web日志中含有大量的用户记录信息,通过对相关信息的挖掘可以识别出单一用户,通过分析用户的浏览行为信息可以抽取用户特性信息,从而构建出用户知识兴趣背景。结合用户知识兴趣背景,对不同用户键入同一查询词进行用户识别,分析其领域知识、兴趣偏好、喜好趋势等信息,从而返回相对不同用户意图需求的结果集,实现个性化检索,提高查全率、查准率以及用户的满意度。本文重点研究通过Web日志挖掘技术建立用户知识兴趣背景,实现个性化检索原型系统。主要研究内容如下:探讨了针对Web日志数据预处理阶段的数据清理技术,同时对数据预处理主要几个步骤进行了详细分析、阐述。针对基于词频的TF/IDF算法忽略了用户知识兴趣与文档相关性问题,结合对Web日志中用户浏览行为和查询日志中用户隐式反馈信息的分析,提出了页面相关性权重计算方法;针对TF计算中忽视了词条与文档结构的问题,提出了词条的重要度影响因子Eiv;最后将页面相关性权重、词条重要度影响因子与基于词频的TF/IDF算法相结合,提出了一种偏加权TF/IDF算法用于用户特征信息抽取,并在此基础上运用向量空间模型构建用户知识兴趣背景,把Rocchio反馈算法进行了相应衍化以应用于对用户知识兴趣背景的实时分析和更新,最后实现了个性化检索原型系统----易搜。最后,对当前论文的工作进行总结,展望了个性化检索的进一步发展。