论文部分内容阅读
随着信息技术的进步,特别是人工智能技术的发展,人们在万维网上发布了包含大规模数据的知识图谱,为知识互联、为智能问答和语义搜索等诸多人工智能应用提供支撑。
知识图谱从逻辑上分成数据层和模式层,其中数据层主要描述现实世界的事实性知识,而模式层主要由公理组成,目的是管理和组织数据层知识。模式层知识一般也被称为本体知识。由于百科类网站的半结构化数据中缺少模式信息,导致公开的知识图谱中本体知识缺乏。本体的不完整将导致知识图谱的一系列应用无法实施。例如,对于缺乏本体的知识图谱,逻辑推理机无法自动化检测知识图谱中的逻辑错误,而且也无法推理得到知识图谱中隐含的事实。已有构建知识图谱本体知识的工作主要是利用统计的方法从事实性知识中获取候选公理,这类方法基于封闭世界假设,将不在知识图谱中的数据作为负例。这样获得的负例存在大量的噪声,从而较大地影响到构建本体的质量。因此,本文提出开放世界假设下构建本体的解决方案,主要分为三个部分:知识图谱数据层事实的补全,基于关联规则挖掘的的本体构建和本体补全。
本文首先对知识图谱的数据层进行知识补全,从而减少对公理置信度的有偏估计。目前,知识图谱表示学习模型在知识图谱数据层事实的补全方面上取得了一定的成功,但是常用的知识图谱表示学习模型通常忽略三元组的结构信息,如何引入知识图谱中结构化信息,提高复杂关系的数据补全是当前知识图谱数据补全的重要问题;随后,在本体构建时,统计方法在构建负例时引入大量的噪声影响构建本体的质量。如何获取高质量的负例和设计一套符合开放世界假设特征的本体构建算法是面临的挑战;最后,通过本体构建算法建立的本体仍然可能还是不完整的,所以需要对本体进行补全。传统的知识图谱表示学习模型常常忽略关系的逻辑属性如传递性,对称性等,导致这类算法无法对本体进行补全。如何设计一个知识图谱表示学习模型来补全本体是另一个挑战。为了更好地解决上述挑战,本文主要进行如下研究:
1)在知识图谱数据层事实的补全方面,本文提出了一个新的表示学习模型TCE(Triple Context-based knowledge Embedding)。大部分知识图谱表示学习模型无法很好补全具有复杂关系的三元组。为了克服这个问题,TCE为每一个三元组定义了一个三元组上下文(Triple Context)。三元组上下文含有三元组的局部结构信息,这些结构信息使得TCE可以有效地处理复杂关系。为了利用知识图谱的结构信息,TCE提出了一个新的得分函数,该得分函数可以计算三元组在对应的三元组上下文下成立的概率。实验结果证明加入上下文后TCE可以有效地提高知识图谱数据层补全的效果。
2)在本体构建方面,本文提出了一个新的本体构建算法SIFS(Schema Induction From Incomplete Semantic Data)。为符合开放世界假设,在通过知识图谱表示学习补全知识图谱中的事实后,SIFS首先使用类型推断算法补全知识图谱中的类型断言。随后,根据新加入的类型断言的概率值来获取高质量的负例并构建事务表。最后,为提高本体的质量,SIFS提出了一个符合开放世界假设的置信度和支持度计算方法。该方法可以更准确地计算候选规则的置信度。实验验证,相比传统的本体构建方法,SIFS中置信度和支持度计算方法可以有效地提高构建本体的准确率和召回率。
3)在本体补全方面,本文提出了一个新的知识图谱中本体表示学习方法CosE。与传统的知识图谱表示学习模型不同,本体知识补全应该充分考虑本体内不同公理的逻辑属性(对称性和传递性)。为了更精准地描述本体中的公理,CosE利用两个语义空间分别对公理的逻辑属性和置信度建模。实验结果证明CosE在本体补全的性能超过了现有的知识图谱表示学习模型。
知识图谱从逻辑上分成数据层和模式层,其中数据层主要描述现实世界的事实性知识,而模式层主要由公理组成,目的是管理和组织数据层知识。模式层知识一般也被称为本体知识。由于百科类网站的半结构化数据中缺少模式信息,导致公开的知识图谱中本体知识缺乏。本体的不完整将导致知识图谱的一系列应用无法实施。例如,对于缺乏本体的知识图谱,逻辑推理机无法自动化检测知识图谱中的逻辑错误,而且也无法推理得到知识图谱中隐含的事实。已有构建知识图谱本体知识的工作主要是利用统计的方法从事实性知识中获取候选公理,这类方法基于封闭世界假设,将不在知识图谱中的数据作为负例。这样获得的负例存在大量的噪声,从而较大地影响到构建本体的质量。因此,本文提出开放世界假设下构建本体的解决方案,主要分为三个部分:知识图谱数据层事实的补全,基于关联规则挖掘的的本体构建和本体补全。
本文首先对知识图谱的数据层进行知识补全,从而减少对公理置信度的有偏估计。目前,知识图谱表示学习模型在知识图谱数据层事实的补全方面上取得了一定的成功,但是常用的知识图谱表示学习模型通常忽略三元组的结构信息,如何引入知识图谱中结构化信息,提高复杂关系的数据补全是当前知识图谱数据补全的重要问题;随后,在本体构建时,统计方法在构建负例时引入大量的噪声影响构建本体的质量。如何获取高质量的负例和设计一套符合开放世界假设特征的本体构建算法是面临的挑战;最后,通过本体构建算法建立的本体仍然可能还是不完整的,所以需要对本体进行补全。传统的知识图谱表示学习模型常常忽略关系的逻辑属性如传递性,对称性等,导致这类算法无法对本体进行补全。如何设计一个知识图谱表示学习模型来补全本体是另一个挑战。为了更好地解决上述挑战,本文主要进行如下研究:
1)在知识图谱数据层事实的补全方面,本文提出了一个新的表示学习模型TCE(Triple Context-based knowledge Embedding)。大部分知识图谱表示学习模型无法很好补全具有复杂关系的三元组。为了克服这个问题,TCE为每一个三元组定义了一个三元组上下文(Triple Context)。三元组上下文含有三元组的局部结构信息,这些结构信息使得TCE可以有效地处理复杂关系。为了利用知识图谱的结构信息,TCE提出了一个新的得分函数,该得分函数可以计算三元组在对应的三元组上下文下成立的概率。实验结果证明加入上下文后TCE可以有效地提高知识图谱数据层补全的效果。
2)在本体构建方面,本文提出了一个新的本体构建算法SIFS(Schema Induction From Incomplete Semantic Data)。为符合开放世界假设,在通过知识图谱表示学习补全知识图谱中的事实后,SIFS首先使用类型推断算法补全知识图谱中的类型断言。随后,根据新加入的类型断言的概率值来获取高质量的负例并构建事务表。最后,为提高本体的质量,SIFS提出了一个符合开放世界假设的置信度和支持度计算方法。该方法可以更准确地计算候选规则的置信度。实验验证,相比传统的本体构建方法,SIFS中置信度和支持度计算方法可以有效地提高构建本体的准确率和召回率。
3)在本体补全方面,本文提出了一个新的知识图谱中本体表示学习方法CosE。与传统的知识图谱表示学习模型不同,本体知识补全应该充分考虑本体内不同公理的逻辑属性(对称性和传递性)。为了更精准地描述本体中的公理,CosE利用两个语义空间分别对公理的逻辑属性和置信度建模。实验结果证明CosE在本体补全的性能超过了现有的知识图谱表示学习模型。