融合主题模型和词嵌入的查询优化方法研究

来源 :北方工业大学 | 被引量 : 0次 | 上传用户:yeti
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎技术的发展与应用改变了人们获取信息的方式。但是在信息检索中,由于用户的查询简短、查询意图不明确等原因,常使系统返回的文档不符合用户的搜索意图。为了提升检索性能,搜索引擎普遍采用查询优化技术,包括查询扩展和查询推荐两方面。传统的优化方法中,伪相关反馈方法是一种有效的方案,但其中的主题偏移问题会给优化效果带来负面的影响,降低检索性能。对于查询扩展,在由伪相关反馈文档获取扩展词后,常将其简单地拼接到原始查询中,这种方式没有对查询词和扩展词之间的相关度进行度量,会对返回文档的排序造成影响。对于查询推荐,由于搜索日趋专业化,如何从伪相关反馈文档中挖掘术语词进行推荐以及如何获取查询词和推荐词之间的语义关系成为重要的研究问题。本文针对以上问题进行了以下三个方面的研究:1.提出主题推断策略去解决伪相关反馈方法中的主题偏移问题。首先使用基于语言模型的打分策略获取反馈文档,并用LDA主题模型对其进行建模;然后用基于吉布斯采样和词嵌入的方法对查询语句的主题进行推断,由此确定相关主题进而改进了基于主题模型的候选词获取方法。实验表明,词嵌入方法从语义的角度出发,在多个方面对查询进行了描述,体现了更多的语义信息。2.使用权重计算方法优化查询扩展中的文档打分策略。首先使用主题推断策略获取候选扩展词;然后对其进行特征计算,包括统计特征和由词嵌入得到的语义特征,根据特征值赋予扩展词不同的权重;最后进行二次检索返回结果。实验表明,引入特征权重计算可以进一步提高伪相关反馈方法的检索效果。3.提出术语词推荐方法进一步提升用户体验。首先利用术语词典从伪相关反馈文档中抽取术语词文档,在对术语词文档建模后,由主题推断策略获取候选术语词;然后建立关系识别算法,将有监督和无监督的方式融合,挖掘查询词和术语词的语义关系,将带有语义关系的词推荐给用户。实验表明,该方法可以更好地满足用户的搜索需求。
其他文献
动漫产业作为信息技术与艺术结合的产物,被誉为21世纪最有希望的朝阳产业。目前,动漫产业已经在全球形成了庞大的产业集群和消费市场。而且,动漫产业与国家软实力建设息息相
腰椎间盘突出是非常常见的脊柱疾病。然而绝大多数的腰椎间盘突出集中于L4/5、L5/S1椎间盘。被称为高位腰椎间盘突出的T12/L1、L1/2、L2/3、L3/4突出相对较为少见。仅占腰椎
中医名家的学术思想和诊疗经验是中医学独有的精华所在,跟随中医名家学习,研究其学术经验,是继承和发扬祖国医学的必经之路。谢晶日教授在临床、科研、教学第一线工作40年,经
为了掌握钢铁企业自备电厂煤气供入量的变化趋势,基于采样数据建立了自回归移动平均(ARMA)模型,利用拉格朗日乘数法(LM)检验出ARMA模型残差存在自回归条件异方差(ARCH)效应,
环境行政管理体制主要由环境行政机构的组织结构、职权配置、职权运行机制三个方面有机组成。我国现行环境行政管理体制在这三个方面都存在问题。借鉴西方国家环保管理体制的
随着我国城市化进程加快,城市人口急剧增加,交通需求量快速增加,作为城市公共交通系统中的骨干,城市轨道交通承担着很重的运输任务。而当尖峰时段、重大节假日以及各类大型活
以北京市455名中小学教师为样本,研究考察了工作条件(学校设施与资源、工作负荷、学校领导支持)与学校人际信任(教师对同事、家长、学生及校长的信任)对教师心理韧性的影响作
目的:糖尿病肾病(Diabetie Nephropathy, DN)是糖尿病(Diabetes Mellitus, DM)常见而难治的微血管并发症之一。一旦糖尿病患者进入DN临床期,将严重影响其生存质量。本研究意在