论文部分内容阅读
知识问答的目的是根据用户提出的自然语言问题,基于知识库给出精确的答案。近些年数据挖掘、信息抽取技术的快速发展,推动了大规模且涵盖领域丰富的知识库的涌现,为基于知识库的问答研究提供了数据基础。由于自然语言问题表达方式的多样性,如何获取问题中的主题实体,并精确的将自然语言问题和知识库中的结构化三元组进行匹配是本文研究的重点。本文将知识问答任务分为两个阶段:主题实体识别和候选三元组排序。在主题实体识别阶段首先使用基于深度学习和迁移学习的实体识别模型得到问题的主题实体;在候选三元组排序阶段分别计算问题和候选三元组的语义相似度和字符相似度,并通过融合进行排序。NLPCC-ICCPOL 2016 KBQA任务发布了大规模的中文知识库和相关的问答数据集,本文在该数据集上进行实验并取得了出色的成绩。本文的主要贡献如下:本文提出迁移深度实体识别模型,将迁移学习和深度学习结合起来用到命名实体识别中。通过将外部中文分词工具的词性标注结果融入到实体识别训练的输入中,解决实体识别数据集过小的问题。并且在双向长短时记忆网络(Bi-LSTM)和条件随机场(CRF)之间加入多头注意力机制提取问题中任意两个字符之间的语义关系,从而获取整个问题的内部语义信息,有效提高实体识别的准确率到91.71%。在问题和三元组语义匹配时,为了捕捉问题中的重要信息且充分利用知识库中的信息,在计算问题语义向量时加入知识库感知注意力机制。知识库感知注意力由自注意力(Self-attention)和加注意力(Add-attention)两部分构成。自注意力用来对问题的语义矩阵进行特征向量转化,加注意力利用知识库中主题实体相连的谓语信息获得问题的重要关注点,最后结合问题的重要关注点和语义矩阵得到问题的语义向量。实验结果表明,知识库感知注意力机制在F1上提高1.97%。本文提出双层次语义匹配模型,模型分别从语义相似度和字符相似度两个角度获取问题和三元组的相似性,可以解决单一相似度无法充分挖掘相似性的问题。在语义相似度计算上利用Bi-LSTM和知识库感知注意力机制得到问题和候选三元组的语义向量表示,通过两者语义向量的联系结合全连接网络获取语义相似度。在字符相似度计算上首先构建问题和候选三元组的字符相似矩阵,然后通过卷积神经网络(CNN)进行特征的提取,最后结合最大池化和全连接网络计算问题和三元组的字符相似度。实验证明,单独使用语义相似度和字符相似度进行语义匹配时,其F1分别为81.72%和78.61%,通过融合语义和字符相似度后F1可以提高到82.74%。本文共有图31幅,表19个,参考文献86篇。