论文部分内容阅读
随着许多商业搜索引擎开始逐步公开部分日志,基于日志的查询扩展方法逐步引起越来越多的关注。然而在实际应用中,基于日志的查询扩展方法往往面临诸多问题,包括:日志包含的用户负反馈对词项间关系图的构建过程具有较大负面影响,降低了基于历史查询条件进行查询扩展的准确率;用户负反馈对潜语义划分过程具有较大负面影响,从而降低了基于历史查询条件的多样化查询扩展过程的准确率;用户负反馈对词项和文档词间的映射关系建立过程具有较大负面影响,从而降低了基于点击文档的查询扩展方法准确率;各种基于日志的查询扩展方法都具有有限的适用场景,算法在实际应用中的适用范围受到限制。在上述问题中,一个核心现象是传统的查询条件用户查询意图描述方法容易受到用户负反馈的负面影响。本文观察日志发现用户试探性点击行为是产生用户负反馈的一个主要原因。由此,本文通过对用户试探性点击行为进行建模,提出了分析和过滤用户负反馈的用户查询意图模型,即融合用户学习过程的用户查询意图模型。在此基础上,本文设计了三种基于该模型的查询扩展方法,降低了用户负反馈对基于日志的查询扩展方法准确率的负面影响。最后,本文提出一种带路径约束的词项间关系图(记为TRGPC),并设计了基于TRGPC的扩展词选取方法。该方法能够兼顾多种基于日志的查询扩展方法的适用场景,从而满足更多用户的信息需求。本文在以下方面展开了深入的研究。(1)融合用户学习过程的用户查询意图模型(记为QIMSP)。本文观察日志发现,由于许多用户通常不知道自身所需文档的特征,因此,这些用户需要通过一些试探性点击来学习所需文档特征。鉴于许多试探性点击的文档与用户查询意图不相关,用户的试探性点击现象是产生用户负反馈的一个重要原因。由此,本文对用户的试探性点击行为进行建模,提出一种融合用户学习过程的用户查询意图模型,从而更准确的描述查询条件用户查询意图。(2)基于QIMSP的查询扩展方法。对候选扩展词排序是查询扩展的一个核心步骤。传统的基于历史查询条件的查询扩展方法将历史查询条件分解为词项,然后基于用户查询意图相似性来判断词项间的相关性,最后基于词项间相关性来对候选扩展词排序。由于传统的用户查询意图相似性计算方法在负反馈频率较高时,无法有效降低负反馈对用户查询意图相似性计算结果的负面影响,因此本文基于QIMSP来计算词项间的相关性,降低负反馈对用户查询意图相似性计算结果的负面影响,提高查询扩展的准确率。(3)基于QIMSP的多样化查询扩展方法。多样化查询扩展方法在近几年逐步开始被人们关注。该方法提出的背景是查询条件自身的歧义性导致其对应的潜在查询目标的多样化。目前的研究致力于使用奇异值分解等线性变换方法来分析查询条件对应的多个潜在查询目标。在该过程中,较高比例的负反馈会造成矩阵中的能量的异常流动,从而导致算法对潜在查询目标的线性描述不准确。由此,本文将QIMSP融入线性变换过程中,提出一种基于QIMSP的多样化查询扩展方法,通过减少不相关文档的文档特征参与线性变换过程的次数,从而降低负反馈对矩阵中的能量流动的影响,提高算法对查询条件的潜在查询目标描述的准确度。(4)融合QIMSP和主题模型的查询扩展方法。该方法是一种基于点击文档的查询扩展方法,旨在利用历史点击文档中的相关文档词来对当前查询条件进行补充,从而使扩展后的查询条件能更清晰的描述当前用户查询意图。鉴于日志的稀疏性,最新研究倾向于使用主题模型来来进行查询扩展,即利用<查询条件,点击文档>的二元组来生成用于查询扩展的词项间关系模型。然而在负反馈比例较高的情况下,<查询条件,点击文档>二元组训练得到的模型与真实的用户查询意图有较大偏差,影响了查询扩展的准确率。为降低负反馈的负面影响,本文将QIMSP融入主题模型的训练过程,提出一种基于用户查询意图的主题模型参数估计算法。该算法通过降低不相关文档的词项对马尔科夫模型状态转换的影响来降低负反馈对主题模型参数估计的影响,从而提高生成的主题模型对用户查询意图的拟合程度。(5)基于TRGPC的扩展词选取方法。目前的各种基于日志的查询扩展方法都针对特定适用场景来设计,当用户查询条件符合算法适用场景时,算法会取得较好的效果。然而在实际应用中,许多用户提交的查询条件可能无法被明确划分到某个适用场景。此时,很难选择合适的查询扩展方法来处理当前查询条件。为了对适用场景不明确的查询条件进行扩展,本文提出一种带路径约束的词项间关系图(记为TRGPC),并设计了基于TRGPC的扩展词选取方法。由于TRGPC能够兼顾不同查询扩展方法的适用场景,因此能够处理适用场景不明确的查询条件,尽可能满足当前用户的信息需求。