论文部分内容阅读
随着互联网的发展,Web上出现了数以万亿的网页,这些网页中包含着大量的信息,每天还在不断的变化与更新,为了实现从整个互联网中快速查找目标信息,信息检索的典型应用系统——搜索引擎应运而生。但因为用户的查询词往往很短且具有很大的歧义性,如何理解用户意图仍然是一个有待解决的问题,并已经成为提高搜索引擎检索质量的关键性技术。用户意图的理解是相当复杂的问题,不同的查询具有不同的意图,即使是相同的查询,不同的用户也可能具有不同的意图。为了简化对用户意图问题的研究,目前主要采用查询分类的方法,把查询的意图划分到一个预先定义好的分类结构中。然而,目前存在的查询分类体系都是静态的,且存在很大的稀疏性,对于用户意图的理解很有限。本文以深入理解用户意图为目标,以依存分析为基础,在查询分类体系,意图的挖掘,以及进一步对意图聚类等方面进行了深入的研究,取得了一些创新性的成果,主要的研究工作和研究成果包括:1)本文提出了动态的层次查询分类体系,并实现了用户意图的挖掘。为了简化对复杂用户意图的理解,目前多采用将用户查询进行分类的方法,搜索引擎可以根据不同类型的查询意图,采用不同的检索策略,优化检索结果。尽管近年来对用户查询分类的研究比较多,但是这些研究基本上都是基于简单的三分类体系,本文提出了一种细化的方法,分别为不同的查询词构建动态的层次分类体系。接着,从搜索引擎返回的检索片段入手,将检索片段看作是查询词的上下文,并利用依存分析的方法从查询上下文中挖掘用户可能的意图。但由于依存关系数量比较少,提出利用依存结构中的其他关系构造了间接的二阶依存关系,从而克服数据悉数问题。最后,实验表明,这种新的方法在准确率和相关率方面,都好于目前的其它方法。2)本文提出了利用层次Dirichlet过程(Hierarchical Dirichlet Process)模型的方法来实现用户意图的聚类。目前,用户意图的研究仅仅停留在如何找到更好的特征来实现用户查询意图的分类。即使有些研究人员提出了挖掘用户意图的方法,但仅仅是对用户意图进行了简单的罗列,其中很多的用户意图具有相同或相似的含义,并没有实现对这些用户意图进行聚类。针对用户意图的聚类个数不能预先确定的特点,本文提出了利用HDP模型,从主题模型的角度来实现用户意图的聚类。文中将动词看作是文本,分别采用共现名词、依存名词以及两者相结合的方法来生成动词文本,根据动词文本中名词的潜在主题来实现动词的聚类。实验表明HDP和DPMM(Dirichlet Process Mixture Model)的性能要优于LDA (Latent Dirichlet Allocation)模型。这表明加入了文本层的HDP模型,更适合于解决意图聚类问题。3)本文提出了利用短文本主题分类的方法来处理短文本构成的查询。当查询词不是由2,3个词构成,而是由短文本构成,查询的意图就明确得多,可以考虑直接利用主题分类的方法来对短文本查询进行分类。然而,短文本查询具有信息量少,结构不完整的特点,传统的单纯基于词的分类方法已经不能很好地解决短文本分类问题。本文提出了一种加入语法信息的方法,来增强句子中重要语法成分的词的重要性,从而增强短文本中包含的信息。实验结果表明语法信息的加入将有助于提高短文本分类的性能。通过判断短文本查询的主题类别,可以对不同主题的查询采取相应的排序策略,做到有针对性的处理查询。此外,还可以进一步进行垂直搜索。