论文部分内容阅读
文本语义相似度(Semantic Textual Similarity,STS)用于衡量自然语言文本间语义的相似程度,是自然语言理解的基础,并且被广泛应用于其他自然语言处理任务中,如问答系统中的相似问题检索、翻译系统的质量评估等。目前,文本语义相似度的研究存在以下两个问题:(1)研究方法主要使用特征工程结合机器学习算法来构建模型,特征的设计和抽取依赖专家领域知识,模型的性能还不够高;(2)研究对象集中在英语文本,对于缺乏标注数据的低资源语言,一般首先将其翻译成资源丰富语言如英语,但是由于误差传播,翻译系统产生的错误会传播并影响文本语义相似度的评估。针对以上问题,本文对多语言文本语义相似度的计算进行研究并且将其应用在论证推理任务中,研究内容包括:1.多语言文本语义相似度的计算为了提升传统方法的性能,本文结合深度学习方法构建集成模型,并且结合翻译系统在多种语言上进行评估。这部分工作应用在2017年SemEval竞赛(国际语义评测竞赛)的多语言文本语义相似度任务中并取得了第一名的成绩,相关论文发表在2017年SemEval会议上。2.低资源语言文本语义相似度的计算为了解除低资源语言对翻译系统的依赖,同时充分利用资源丰富语言的标注数据,本文提出深度多任务学习模型,通过同时学习低资源语言和资源丰富语言的任务来辅助低资源语言文本语义相似度得到良好的特征表示。这部分工作发表在2018年ECIR会议上。3.语义匹配在论证推理中的应用前面两个工作对文本语义相似度的计算进行了研究,第三个研究工作将文本语义相似度的核心语义匹配应用在论证推理任务中。为了匹配给定的前提结论和候选论据,本文提出基于注意力机制的神经网络模型。这部分工作应用在2018年SemEval竞赛的论证推理任务中并取得第三名的成绩,相关论文发表在2018年SemEval会议上。为了验证以上模型的有效性,本文进行了大量的定量和定性实验。实验结果表明,本文提出的集成计算模型和深度多任务学习模型能够有效评估多语言和低资源语言的语义相似度。此外,语义匹配在论证推理中取得了良好的应用。