论文部分内容阅读
企业信息检索是信息检索的一个新的研究方向,旨在帮助企业快速分析内部网络上的内容,实现高效的内容管理,从而达到提高企业生产效率的目的。企业信息检索既是一个综合性的课题,可以尝试将自动摘要、网页检索、信息过滤、命名实体识别等各种信息检索技术综合运用,又是一个具有启发性的新颖课题,通过对企业环境、企业数据的分析,探索出新的模型和方法,从而促进信息检索领域的发展。 企业信息检索以需求,也就是检索目的作为子课题。TREC2005提出的三个子课题包括特定邮件检索、讨论组邮件检索和专家检索。 本文在专家检索方面展开研究,主要工作包括: 第一,对信息检索的三种模型进行了研究和对比。 第二,针对专家检索设计了一种折线模型,可以利用网页检索的技术作为基础来辅助专家检索。 第三,分析tf-idf权重公式中索引词与文档的关系,类比专家与文档的关系设计了专家权重计算公式,以及总的专家排名算法。 第四,提出一种启发式的重名分析算法,来解决有词典人名识别中的重名问题。 第五,设计并实现了一个专家检索系统ExpertFinder,综合了以上研究成果。