论文部分内容阅读
随着互联网信息规模的飞速增长,搜索引擎成为了人们快速获取网络信息所必不可少的工具。用户只需向搜索引擎输入查询词,便会得到相应的搜索结果。但是,查询输入通常只有几个词,且常常有歧义,所以有时并不能准确地反映用户的查询意图,导致返回无关信息。实时查询扩展是一种对用户输入进行扩充以便更准确的体现用户查询意图的技术。基于向用户实时的推荐新查询词,它可以补全用户查询句,减少用户的输入量,同时消解意图上的歧义。传统的实时查询扩展技术大多是利用查询日志,基于关键词频率进行查询词补全和查询词推荐。本文首先提出了一种基于“动词+修饰词+名词”依存关系的查询意图表示方法,并基于对总大小为1.15G的915600篇文档的大规模语料分析,构造了一个超过5万个节点的依存关系网络。然后,提出了一个利用上述大规模依存关系网络为用户进行实时查询扩展的方法。实验表明,该方法的扩展成功率达到84%,并能减少用户查询时所需的输入量。最后,实现了一个具有完整检索功能的实时查询扩展系统。该系统综合利用上述的查询词扩展技术和基于字符串的词语补全技术来进行实时查询扩展。系统评测表明,该系统可以减少63.75%的用户操作。而且在经过扩展之后,检索结果的nDCG评分达到88.95%。与微软的Bing搜索引擎的比较表明,本系统在用户输入的词序不同时有更稳定的查询扩展能力。