面向用户学习过程的查询扩展方法研究

来源 :东北大学 | 被引量 : 1次 | 上传用户:vh600
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着许多商业搜索引擎开始逐步公开部分日志,基于日志的查询扩展方法逐步引起越来越多的关注。然而在实际应用中,基于日志的查询扩展方法往往面临诸多问题,包括:日志包含的用户负反馈对词项间关系图的构建过程具有较大负面影响,降低了基于历史查询条件进行查询扩展的准确率;用户负反馈对潜语义划分过程具有较大负面影响,从而降低了基于历史查询条件的多样化查询扩展过程的准确率;用户负反馈对词项和文档词间的映射关系建立过程具有较大负面影响,从而降低了基于点击文档的查询扩展方法准确率;各种基于日志的查询扩展方法都具有有限的适用场景,算法在实际应用中的适用范围受到限制。在上述问题中,一个核心现象是传统的查询条件用户查询意图描述方法容易受到用户负反馈的负面影响。本文观察日志发现用户试探性点击行为是产生用户负反馈的一个主要原因。由此,本文通过对用户试探性点击行为进行建模,提出了分析和过滤用户负反馈的用户查询意图模型,即融合用户学习过程的用户查询意图模型。在此基础上,本文设计了三种基于该模型的查询扩展方法,降低了用户负反馈对基于日志的查询扩展方法准确率的负面影响。最后,本文提出一种带路径约束的词项间关系图(记为TRGPC),并设计了基于TRGPC的扩展词选取方法。该方法能够兼顾多种基于日志的查询扩展方法的适用场景,从而满足更多用户的信息需求。本文在以下方面展开了深入的研究。(1)融合用户学习过程的用户查询意图模型(记为QIMSP)。本文观察日志发现,由于许多用户通常不知道自身所需文档的特征,因此,这些用户需要通过一些试探性点击来学习所需文档特征。鉴于许多试探性点击的文档与用户查询意图不相关,用户的试探性点击现象是产生用户负反馈的一个重要原因。由此,本文对用户的试探性点击行为进行建模,提出一种融合用户学习过程的用户查询意图模型,从而更准确的描述查询条件用户查询意图。(2)基于QIMSP的查询扩展方法。对候选扩展词排序是查询扩展的一个核心步骤。传统的基于历史查询条件的查询扩展方法将历史查询条件分解为词项,然后基于用户查询意图相似性来判断词项间的相关性,最后基于词项间相关性来对候选扩展词排序。由于传统的用户查询意图相似性计算方法在负反馈频率较高时,无法有效降低负反馈对用户查询意图相似性计算结果的负面影响,因此本文基于QIMSP来计算词项间的相关性,降低负反馈对用户查询意图相似性计算结果的负面影响,提高查询扩展的准确率。(3)基于QIMSP的多样化查询扩展方法。多样化查询扩展方法在近几年逐步开始被人们关注。该方法提出的背景是查询条件自身的歧义性导致其对应的潜在查询目标的多样化。目前的研究致力于使用奇异值分解等线性变换方法来分析查询条件对应的多个潜在查询目标。在该过程中,较高比例的负反馈会造成矩阵中的能量的异常流动,从而导致算法对潜在查询目标的线性描述不准确。由此,本文将QIMSP融入线性变换过程中,提出一种基于QIMSP的多样化查询扩展方法,通过减少不相关文档的文档特征参与线性变换过程的次数,从而降低负反馈对矩阵中的能量流动的影响,提高算法对查询条件的潜在查询目标描述的准确度。(4)融合QIMSP和主题模型的查询扩展方法。该方法是一种基于点击文档的查询扩展方法,旨在利用历史点击文档中的相关文档词来对当前查询条件进行补充,从而使扩展后的查询条件能更清晰的描述当前用户查询意图。鉴于日志的稀疏性,最新研究倾向于使用主题模型来来进行查询扩展,即利用<查询条件,点击文档>的二元组来生成用于查询扩展的词项间关系模型。然而在负反馈比例较高的情况下,<查询条件,点击文档>二元组训练得到的模型与真实的用户查询意图有较大偏差,影响了查询扩展的准确率。为降低负反馈的负面影响,本文将QIMSP融入主题模型的训练过程,提出一种基于用户查询意图的主题模型参数估计算法。该算法通过降低不相关文档的词项对马尔科夫模型状态转换的影响来降低负反馈对主题模型参数估计的影响,从而提高生成的主题模型对用户查询意图的拟合程度。(5)基于TRGPC的扩展词选取方法。目前的各种基于日志的查询扩展方法都针对特定适用场景来设计,当用户查询条件符合算法适用场景时,算法会取得较好的效果。然而在实际应用中,许多用户提交的查询条件可能无法被明确划分到某个适用场景。此时,很难选择合适的查询扩展方法来处理当前查询条件。为了对适用场景不明确的查询条件进行扩展,本文提出一种带路径约束的词项间关系图(记为TRGPC),并设计了基于TRGPC的扩展词选取方法。由于TRGPC能够兼顾不同查询扩展方法的适用场景,因此能够处理适用场景不明确的查询条件,尽可能满足当前用户的信息需求。
其他文献
背景线索作为自闭症谱系障碍者情绪面孔识别的影响因素之一,对其情绪面孔识别能力有着重要的影响。已有研究主要从场景背景线索和语义背景线索两个方面进行研究,结果表明,自
钱谦益是明清之际著名的文学家。自上世纪以来,他的诗学思想成为学界研究的热点。“诗史”说是其诗论的重要组成部分,尤为代表诗人心迹。本文以思想史的学术理念为指导,置于
把科研成果转化为实验教学内容,不仅会丰富课堂内容,同时也拓宽并延展了学生的知识面。该实验项目最初源于作者的科研课题,综合蛋白的结构、荧光标记DNA与DNA分析仪在酶动力
2008年金融危机前,以《巴塞尔协议Ⅱ》为蓝本的资本监管措施忽视了银行业经营的顺周期性问题,低利率的货币政策环境下银行风险承担水平的高企最终导致了发端于银行次贷危机的
近些年来,随着结构健康监测技术不断发展成熟,结构健康监测系统已经被越来越多的应用在现代建筑结构中,为我们了解结构的服役状况,及时采取相应的措施保障结构安全提供了方便。土木工程结构日趋大型化和复杂化,也对结构健康监测提出了更高的要求。如何使用有限的传感器准确估计大型结构的状态和参数,识别其关键部位的损伤成为了一项十分具有挑战性的难题。扩展卡尔曼滤波方法(EKF)是利用部分观测的结构动力响应实时识别结
企业的管理者、新员工及老员工都要行动起来,促进新老员工融合,这样企业才能更好地发展。前几年有一部热播电视剧叫《不要和陌生人说话》。这是一部情节离奇的心理剧,剧中男主角
方文作为桐城方氏一员,虽然在后世的名声远不如同时期的方以智,但在明末清初的文坛上,他交游广阔、诗名也闻名于天下。在他的诗歌中,无论是在明朝时的年少交游,还是入清之后的遗民生活,每一段生活经历在诗中都有较为清晰的展现。明清之际,由于特殊的时代背景,文坛中人对“诗史”的解读又有了新的观点,尤其是遗民诗人群体,他们有了更加明确的创作诉求。方文诗歌有“嵞山体”之称,其诗歌在当时就被诸多的文学家认为具有“诗
目的探讨小剂量丙戊酸钠联合拉莫三嗪治疗癫痫的临床疗效及安全性。方法选取2012年1月—2014年1月收治的癫痫患者106例,随机分为对照组和研究组,每组53例。对照组患者采用丙
2013~2014年,两岸创意经济发展的社会与经济环境更加成熟。融合发展、"抢红包"、文化企业并购、文化金融、众筹、大数据产业等成为聚焦热点。尤其是"互联网+"力促创意产业融
目的:观察加味酸枣仁汤对焦虑性失眠患者的疗效及其作用机制。方法:将符合纳入标准的1 20例患者采用随机数字表法分为治疗组和对照组,每组60例。并与健康睡眠者30例作对照。