论文部分内容阅读
知识库中包含大量的知识,如何从特定结构的知识库中挖掘自然语言问题的答案成为了近年的研究热点。知识库问答主要研究如何将问题转化为结构化查询从而对知识库中的知识进行检索。随着深度学习的发展,知识库问答的查询方式演变为在同一个语义空间下将问题与候选答案信息进行语义相似度比较后得到语义相似度最高的候选答案信息对应的候选答案作为问题的答案。
在知识库问答研究中,通常选取知识库中的实体作为候选答案,选取知识库中与候选答案有关的路径和上下文等多视角信息直接表示候选答案信息,忽略了多视角信息间的相关性与整体性;在单词级别的问题与多视角级别的候选答案信息上获取二者的相互影响,忽略了二者在整体级别上的相互影响。由此,提出一种多角度交叉注意力模型,旨在从问题和候选答案信息等多个角度运用注意力机制来加强二者的表示,首先利用自注意力机制来加强问题和候选答案信息的上下文信息;然后在多视角信息间运用交叉注意力机制来获取信息间的交叉影响以加强候选答案信息的表示;最后将问题和候选答案信息进行整体表示后,运用双向交叉注意力机制在整体角度上获取二者的相互影响以加强其表示。此外,问题中存在与候选答案类型有关的类型启发信息和与候选答案时序推理有关的隐藏时序信息,这些信息对候选答案的过滤和排序有一定影响。由于问题的信息过于冗余,模型很难从中获取到这些关键性信息。由此,利用特征增强的方式来加强问题中的类型启发特征和隐藏时序特征,将依存树与类型转换表结合获取问题中的类型发现词,根据时序词表来获得问题中的隐藏时序词,然后将类型发现词和隐藏时序词通过注意力机制的方式对问题的类型启发特征与隐藏时序特征进行增强,从而改进候选答案的过滤和排序。
在FreeBase知识库与WebQuestions数据集上进行了实验,F1值达到了55.91%,优于最近表现较好的方法,有效的提升了知识库问答系统的正确率,并且通过消融实验,进一步证明该方法的有效性。
在知识库问答研究中,通常选取知识库中的实体作为候选答案,选取知识库中与候选答案有关的路径和上下文等多视角信息直接表示候选答案信息,忽略了多视角信息间的相关性与整体性;在单词级别的问题与多视角级别的候选答案信息上获取二者的相互影响,忽略了二者在整体级别上的相互影响。由此,提出一种多角度交叉注意力模型,旨在从问题和候选答案信息等多个角度运用注意力机制来加强二者的表示,首先利用自注意力机制来加强问题和候选答案信息的上下文信息;然后在多视角信息间运用交叉注意力机制来获取信息间的交叉影响以加强候选答案信息的表示;最后将问题和候选答案信息进行整体表示后,运用双向交叉注意力机制在整体角度上获取二者的相互影响以加强其表示。此外,问题中存在与候选答案类型有关的类型启发信息和与候选答案时序推理有关的隐藏时序信息,这些信息对候选答案的过滤和排序有一定影响。由于问题的信息过于冗余,模型很难从中获取到这些关键性信息。由此,利用特征增强的方式来加强问题中的类型启发特征和隐藏时序特征,将依存树与类型转换表结合获取问题中的类型发现词,根据时序词表来获得问题中的隐藏时序词,然后将类型发现词和隐藏时序词通过注意力机制的方式对问题的类型启发特征与隐藏时序特征进行增强,从而改进候选答案的过滤和排序。
在FreeBase知识库与WebQuestions数据集上进行了实验,F1值达到了55.91%,优于最近表现较好的方法,有效的提升了知识库问答系统的正确率,并且通过消融实验,进一步证明该方法的有效性。