论文部分内容阅读
知识图谱以形如(实体1,关系,实体2)这样的三元组的形式存储结构化数据,成为了很多智能应用的基础。众多的知识图谱,如Freebase、DBpedia、YAGO已经被成功构建并应用到关系抽取、信息检索、自动问答、实体链接等场景。有效的知识图谱表示方法是贯通知识图谱构建与应用全过程的核心。以独热表示为代表的传统的表示方案假设所有对象独立不相关,造成大量信息的浪费,无法充分利用对象的语义信息,存在数据稀疏的问题,因此无法对三元组进行有效地表示。同时由于知识的爆炸式增长,知识图谱需要不断丰富,知识图谱中还存在大量需要补全的知识,如果通过设计专门的图算法对每一个实体和关系进行语义计算和关系推理,不仅可移植性差,而且计算复杂度高、难以进行大规模运算。然而,知识图谱的表示学习通过将实体和关系表示为低维稠密的实值向量,可以高效计算实体和关系的语义联系,进而进行关系推理,实现异质信息融合,提高计算效率。但是知识图谱的表示学习依旧存在许多挑战。首先是大多数表示学习方法仅从结构角度对三元组建模,忽略了种类丰富的多源信息,缺乏有效的方式从中提取互补信息以及缺乏有效的融合方式。其次是由于大多数方法仅从全局角度通过潜在特征对实体和关系进行学习,因此对于在一些场景无法提供精确的语义表示,无法有效地对复杂关系进行建模。同时,大多数现有方法学习到的分布式表示都能蕴含实体的基本语义信息和结构信息,但表示无法表达更高层次的信息。针对以上问题,本文在已有工作的基础上改进了表示学习方法,主要工作如下:(1)提出了基于判别路径的知识图谱表示学习方法DPTransE,该方法由潜在特征学习模型和图特征学习模型构成。前者提取多步关系路径蕴含的语义信息,基于语义相似度假说从全局角度学习三元组表示;后者基于图模式从局部角度挖掘实体和关系的图特征,并作为先验信息促进潜在特征学习。DPTransE方法充分利用两类模型的优势,整合了两类模型的特征,其中路径聚类算法提升了路径特征的置信水平,并且一定程度上解决了数据稀疏问题。实验验证了 DPTransE方法可以提高表示学习的质量,证明了方法的有效性。(2)提出了基于结构和实体类别信息的联合表示学习方法CEKE,该方法充分利用实体的类别信息,提出了一个联合学习框架,将基于知识图谱结构的表示学习同实体类别的分布式表示学习统一起来,并对两者的学习过程构建闭环。通过显式地学习实体类别的分布式表示可以优化知识表示,使实体和关系的表示不仅能体现语义信息、结构信息同时能蕴含潜在的更高层次的类别信息。实验结果验证CEKE模型在链接预测和三元组分类的任务性能上取得了显著提升,进一步说明了模型的有效性。