论文部分内容阅读
搜索引擎技术的发展与应用改变了人们获取信息的方式。但是在信息检索中,由于用户的查询简短、查询意图不明确等原因,常使系统返回的文档不符合用户的搜索意图。为了提升检索性能,搜索引擎普遍采用查询优化技术,包括查询扩展和查询推荐两方面。传统的优化方法中,伪相关反馈方法是一种有效的方案,但其中的主题偏移问题会给优化效果带来负面的影响,降低检索性能。对于查询扩展,在由伪相关反馈文档获取扩展词后,常将其简单地拼接到原始查询中,这种方式没有对查询词和扩展词之间的相关度进行度量,会对返回文档的排序造成影响。对于查询推荐,由于搜索日趋专业化,如何从伪相关反馈文档中挖掘术语词进行推荐以及如何获取查询词和推荐词之间的语义关系成为重要的研究问题。本文针对以上问题进行了以下三个方面的研究:1.提出主题推断策略去解决伪相关反馈方法中的主题偏移问题。首先使用基于语言模型的打分策略获取反馈文档,并用LDA主题模型对其进行建模;然后用基于吉布斯采样和词嵌入的方法对查询语句的主题进行推断,由此确定相关主题进而改进了基于主题模型的候选词获取方法。实验表明,词嵌入方法从语义的角度出发,在多个方面对查询进行了描述,体现了更多的语义信息。2.使用权重计算方法优化查询扩展中的文档打分策略。首先使用主题推断策略获取候选扩展词;然后对其进行特征计算,包括统计特征和由词嵌入得到的语义特征,根据特征值赋予扩展词不同的权重;最后进行二次检索返回结果。实验表明,引入特征权重计算可以进一步提高伪相关反馈方法的检索效果。3.提出术语词推荐方法进一步提升用户体验。首先利用术语词典从伪相关反馈文档中抽取术语词文档,在对术语词文档建模后,由主题推断策略获取候选术语词;然后建立关系识别算法,将有监督和无监督的方式融合,挖掘查询词和术语词的语义关系,将带有语义关系的词推荐给用户。实验表明,该方法可以更好地满足用户的搜索需求。