论文部分内容阅读
随着大数据和知识工程迅猛发展,通过信息抽取、知识加工技术构建的大规模的知识库应运而生,成为自动问答系统的资源支撑,极大的促进了知识库问答的发展。然而,知识库问答系统在很多实际应用过程中也面临多种挑战。首先,机器该如何准确地抽取人类自然言语中的主题实体,这是能够正确找到候选子图的关键一步。其次,人类的自然语言和知识库中的结构化信息存在着语义鸿沟,因此,如何使问题与知识库中的语义信息做匹配成为问答系统要解决的核心问题。深度学习凭借自身的优越性,成为自然语言处理技术中的佼佼者,它已经融入到问答系统中的各个环节。本文采用深度学习相关技术解决问答系统中上述存在的诸多问题。针对以上问题,首先要做的就是减少候选事实数量,本文提出了基于子图排序的子图选择方法,其次应该从大量事实中选取最优的一个三元组,本文提出了联合事实选择的方法。(1)子图抽取的第一步就是对自然语言问题进行模式抽取,采用实体识别算法将其问句中的单词进行标注,把问句划分为两个独立的部分:表示问题的主题实体(mention)、代表关系的问题模式(pattern),根据主题实体的结构信息链接知识库中的相关实体,然后,筛选高质量候选事实的过程中利用subject(知识库实体)和mention的相似性对子图进行排序,除了常用的字面相似性,本文还引入了语义相似性的计算,最后根据联合事实选择模型从子图中抽取相关事实,有效避免了之前错误实体链接导致错误关系的情况。实验验证通过对实体进行排序后,实体的召回率得到明显的提升。(2)现有基于深度学习的问答系统并没有充分利用深度神经网络的深度去获取问句更深层的语义特征。本文利用两层堆叠BILSTM,通过增加神经网络模型深度,把第一层的训练结果输入到第二层BILSTM网络中,第二层的训练不仅训练速度更快,也可以获得更高级更抽象的特征,同时在两层BILSTM间引入深度残差网络,残差网络可以凭借其自身的优势,更简单有效地解决了深度网络难以训练的难题。另外为了学习到更丰富的知识库关系和问题模式的语义信息,知识库中的关系表示采用两个层次的语义,单词级别表示和谓词级别表示,它们之间互相补充语义信息。本文模型在simple question数据集上验证,证明了新的关系抽取方式对提升问题系统准确率的有效性。(3)实体和关系之间存在强依赖性,对于这种依赖性的恰当应用可以提高问答的准确性,本文提出了实体和关系联合选择方法,充分利用实体选择和关系选择之间的内在联系,实体识别过程中抓取的特征会传递到关系抽取部分,影响关系的选择,本文的实验结果表明将传统的流水线识别实体关系的方式转换成联合训练方式可以有效提高问答系统的准确性。