论文部分内容阅读
基于互联网的自动问答基于搜索引擎返回的结果回答自然语言问题,可充分利用搜索引擎高质量的结果,省去存储大量文档的必要。答案抽取是从检索得到的文本中生成答案,包含候选生成和候选排序。由于搜索片段具有噪音多、句子结构不完整等特点,使得基于搜索结果的答案抽取和正规文本上的答案抽取有很大不同,传统方法在该任务上受到影响,性能下降。本博士论文讨论如何针对搜索结果的问题优化答案抽取,包括以下课题:针对一些搜索结果中正确答案出现的特征不明显的问题,本文提出了基于段落图模型的候选生成方法,某个段落中的候选生成可以接收到来自其他段落中的信息、并帮助提高当前段落中生成候选的结果。实验证明,该模型可有效提高候选生成的准确率和召回率。对搜索结果中噪音多、句法结构不完整的问题,本文提出了剪枝排序融合整合不同候选生成方法,并基于排序学习进行候选重排序。该框架可以有效减轻搜索结果中的噪音的影响。实验证明,本文中的排序方法在基于搜索结果中的候选排序任务上超过了目前最好的算法。针对搜索结果表达和原问题之间有较大差异、在计算相似度时可扩展性差的问题,本文提出了两种基于词表示的问题和候选答案相似度的计算方法,包括搜索结果和问题之间的文本相似度和候选答案和答案类型之间的语义相似度。实验证明,使用本文提出的两种基于词表示计算的相似度可以有效提高候选排序的结果。针对搜索结果和问题间存在表述差异这一问题,本文探讨复述生成的应用。本文提出了基于联合学习的对偶机器翻译系统生成复述的方法以及复述生成的评价指标。使用该方法生成问题的复述表示,可增加复述表示的差异性,减轻计算相似度时不同表示之间差异带来的影响。实验证明,使用本文提出的复述生成方法可提高候选排序结果。其中,本文使用基于段落图模型方法进行候选生成,然后结合其他候选生成方法、基于排序学习进行候选排序。在此基础上,使用基于词向量、复述计算的相似度特征提高排序结果。通过本文的研究,减轻了基于搜索结果生成答案时,搜索片段的噪音等问题对问答结果的影响,使得基于互联网的自动问答的答案抽取在不依赖句法、语义相似度的情况下,获得超过目前最好答案抽取方法的结果。