论文部分内容阅读
随着互联网的飞速发展,人们每天能够接触到的信息正在爆炸式地增长,这些信息大大超过了人的处理能力。搜索引擎正是在这个背景下出现的,它能够对这些大规模的信息做一个初步筛选。然而,目前人们更加希望能够直接获得需要的答案。问答系统就是这样的系统,它能够根据问题的描述快速给出对应的答案,以供用户使用。本文主要研究问答系统中的答案选择部分,即给定问题和一组候选答案集合,从中选择出最佳的一条或几条答案。答案选择这一任务的本质是计算问题语句和答案语句之间的语义相似度。与采用词林、依存语法解析树等语言学工具的传统方案不同,本文使用了一套模块化的基于神经网络的答案选择模型框架,并为其中的一些模块设计了不同的实现方式。模型针对每个答案计算出其与问题文本的语义相关度得分,并据此得到选择结果。本文在问答数据集上测试了传统方法和多种基于神经网络的方法,实验结果表明基于神经网络的方案有更好的效果,而且依赖更少的外部语言学工具。针对答案选择特别是非事实型答案选择这一特定场景,在句子建模方面,考虑到现有方法一般是将问题文本与答案文本分开处理,直到最后计算相似度的时候才联合到一起。本文提出了一种利用问题与答案文本之间相关信息的语义计算方法,这种方法能够计算问题和答案在文本层面上的语义相似性。句子间的相关信息代表了问答语句中各部分的重要程度,也会参与到对句子的向量化计算的过程中,为句子建模提供额外的交互特征。在数据集上的测试结果表明本文提出的利用问答文本间相互信息的方案能够与神经网络相结合取得比原始方案更高的准确率。