论文部分内容阅读
传统搜索引擎能通过关键词组合方式检索召回查询相关页面,但还必须经过人工方式选择与查询主题相关的信息。专家检索是当前垂直信息检索研究的热门领域,是针对专家特征而开展的更精确的信息检索方式,其能够提供多种形式主题相关查询,且直接返回与查询主题最相关的专家列表或主页,是当前最有效的专家信息获取手段。专家排序模型是专家搜索的核心,专家排序的效果决定了整个专家检索系统的性能。因此,构造高效的专家排序模型成为关键。本文对专家排序方法作了一定的探讨,致力于如何融合专家证据文档、专家关系及专家元数据等特征信息构建基于列表的专家排序模型,进而提高专家排序效果。主要在以下几个方面展开深入研究,取得了一定的成果:(1)分析了影响专家排序的因素,定义了用于专家排序的三大种类特征。针对专家排序任务,研究查询与专家页面及证据文档之间的相关性,分析专家证据文档、专家关系网、专家元数据等因素对专家检索排序影响,提取相似度特征、BM25评分、专家页面内容特征、专家关联关系特征。后续的实验表明,融入上述特征有效地提高了专家排序的效果。(2)提出了基于ListNet的多特征融合的专家排序方法。该方法首先对专家的页面特点进行分析,选取查询和专家候选页面相关性特征、专家页面内容及专家页面间关联关系特征,然后,将特征融合到ListNet排序模型中,通过梯度下降法学习参数,构建基于列表的融合多特征的专家排序模型,最后,利用训练好的模型进行专家排序对比实验,实验结果表明提出方法有较好的效果,相比基于数据对的专家排序方法NDCG@1值提升14.2%,基于列表的融合多特征方法能够提高专家排序的效果。(3)提出了基于关联特征的专家列表学习排序方法。该方法首先构建基于专家证据文档的相关性模型、构建基于专家关系网的相关性模型、构建基于专家元数据的相关性模型,在获得以上三个基于关联特征的相关性模型基础上,我们提出Expert-ListNet算法,然后训练得到基于关联特征的专家列表学习排序模型。通过实验证明了提出方法的有效性和优越性。(4)利用上述研究成果,设计实现了融合多特征的专家列表排序学习原型系统。