论文部分内容阅读
所谓专家,是指具有一定专业技能的人员。在当今信息量骤增的时代,在企业内部网络上与万维网上搜索专家,是一个越来越重要的需求。然而,现有的专家搜索技术和工具无法满足这种需求。对于企业内部网络的专家搜索已有一些相关研究,但目前仍没有一个统一的理论框架,并且检索效果仍无法满足用户实际需求,而对于万维网上专家搜索的研究目前寥寥无几。为了弥补这些研究上的空白,本文提出基于Web的专家搜索的研究。具体来讲,本文主要深入研究以下几个课题。专家的发现和识别是指自动的发现文档集中的所有专家,并将专家出现的位置进行识别和标记。它是建立一个专家搜索引擎的首要问题。本文提出了一种通过分析E-mail的方法,来自动获得文档集中的专家列表,并提出一个高效的识别专家在文档集中出现位置的算法。专家搜索模型是在给定专家列表的情况下,针对给定的查询在文档集中有效的进行专家检索。本文提出一个基于证据的专家搜索模型。在这个模型中,一个专家与查询的相关程度由文档集中的证据决定。实验证明,本文提出的检索模型可以有效的在Web文档集中检索相关专家。为了区别专家和普通用户,本文提出静态排名(Static Ranking)的方法来发现专家的重要程度。本文提出了基于链接分析专家排名算法(ExpertRank),并进一步发展出主题敏感的专家排名算法(Topic Sensitive ExpertRank)。在万维网上,人名的歧义现象很严重。一个人名的搜索结果往往对应着多个不同的个体。这成为了专家搜索的一个必须解决的问题。本文针对该问题提出了一种利用额外的反馈页面进行分类的框架,并在该框架下提出两种用于分类的特征:“关键词(Key Token)”和“主题(Topic)”。实验证明,这两种特征在提高消歧效果上有着重要的作用。此外,本文也深入讨论了不同分类方法的效果,并利用不同的取样方法处理数据不平衡带来的稳定性问题。