论文部分内容阅读
问题回答是文本检索和自然语言处理领域中非常热门的一个研究方向。问题回答系统输入的是基于自然语言的问题,返回的是精确答案以及支持该答案的文档。答案排序是问题回答中的关键技术之一,它通过计算答案的置信度来对候选答案进行排序。给定一个问题和一个答案,答案的置信度指的是该答案正确回答了问题的自信程度。目前的答案排序方法还不够成熟,因此基于置信度的答案排序技术的研究具有重要的意义。基于自然语言处理的对话系统也是国际上的研究热点之一,对话系统输入的是人的语音命令,返回的是正确的回答或执行相应的指令。对话系统需要基于句子中的某些重要成分的置信度来进行有效的对话,而目前的基于词一级、基于概念一级或者基于句子一级的置信度的研究都不能满足这种需要。这样基于短语一级的置信度的研究,对于对话系统性能的提高具有重要的现实意义。本文的主要贡献有三个方面:第一,本文提出了一种新的基于置信度的答案排序的方法。这是一种基于依赖关系三元组匹配的计算问题与支持答案句相似度的方法。该方法挖掘了问题中的疑问性和非疑问性部分的信息,采用启发式规则来扩展问题的依赖关系三元组,从而来匹配变形的答案句。这种匹配得分被作为新的特征,应用于计算答案的置信度之中。本文采用TREC会议提供的语料进行实验,实验结果表明,引入新特征的答案排序方法的性能比引入前有显著的提高。第二,根据对话系统的实际需要,本文提出了基于句法分析子树一级的置信度的研究:给定一棵句法分析子树所包含词的语音识别的信息和句法分析器剖析的结果,要求给出相应的置信度,即句法分析器对句子中某一成分剖析的自信程度,以及该子树中的词的语音识别的自信程度。随后,本文提出了一种新的计算置信度的算法,该算法采用了语音特征、句法特征和语义特征,以及条件最大熵模型。在餐馆查询系统语料和SwitchBoard语料上的实验结果表明,该算法具有较低的错误率。第三,基于上述句法分析子树一级置信度的研究,本文进一步提出了一系列新的长距离、结构化的句法特征。这些特征来自于句法分析树的一层或者多层之间的依赖关系。传统的词一级的特征只能反映句子的表层信息,而长距离、结构化的句法特征更能反映句子的深层信息。这些特征被应用于基于句法分析子树的置信度评分算法中,并且显著提高了系统的性能。