论文部分内容阅读
知识在机器理解、语义Web中有着重要作用。近年来从非结构化、半结构化Web数据中自动知识获取技术得到了广泛地研究,然而从这些数据源获取的知识领域分布广,且普遍存在语义异构性和不确定性,亟需有效的知识融合方法,将多源语义异构知识融合为统一的知识库。近年来,众包引起了广泛的研究兴趣,已在数据库、图像搜索、自然语言处理、信息检索等众多领域被广泛采用,被证明是人类专家的一种切实可行的成本有效的可替代解决方案,并成为处理机器难任务的一种有效方法。因此,本文针对知识融合中异构知识语义映射、知识精炼以及知识推理等问题,对基于机器学习模型与众包的知识融合方法展开研究,主要工作和贡献如下:(1)针对本体异构问题,提出一种基于Markov逻辑网的本体映射模型,实现本体对齐。与已有的本体映射方法相比,Markov逻辑网具有许多的优点,它较完美地结合了一阶谓词逻辑和概率图模型,能够结合多种映射策略,为解决本体映射问题提供了一个优秀的框架。本文提出的映射策略,采用了匹配传播规则建模概念关联关系之间的依赖关系,该策略可以帮助识别正确的元素对应关系并能有效发现在候选中遗漏的正确的元素对应关系,有效的提升了映射精度。此外,现有方法一般使用相似度阈值来产生候选匹配对,然而在实际应用场景中阈值的估计是很困难的,因此,我们提出了一种交互式的阈值选择方法,通过少量用户反馈来确定合适的阈值。实验结果表明我们的方法能够有效提高映射精度与算法的鲁棒性。(2)针对表格异构问题,提出了一种联合概率模型与众包的表格映射方法,该方法首先基于知识库计算表格语义概率模型,并结合众包对表格语义和数据正确性进行标注,然后基于语义和数据正确性标注进行表格映射与数据修正,克服了Web表格不完整性带来的问题。提出的基于效用的众包任务选择算法,能够在给定预算下自动分配最佳任务给众包,最大化提升表格语义计算准确性。此外,传统方法往往将表格映射和数据清洗视为两个独立的任务进行处理,本文提出的方法能够在构建表格语义映射的同时识别并修正错误数据,二者相互促进提升性能。实验表明,与传统的模式映射方法相比,我们提出的HMCMC方法能更有效地处理Web表格数据,在映射与清洗上都获得了性能提升。(3)自动抽取的知识普遍存在不确定性和不一致性,自动知识精炼方法能够处理的知识规模和精度仍然有限。本文针对该问题,提出了一种结合图模型与众包的知识精炼方法,利用语义约束与群体智慧甄别知识真伪,解决知识冲突。针对众包任务选择问题,分别提出了基于排序的众包任务选择算法和基于图的众包任务选择算法。在基于排序的众包任务选择算法中,我们基于语义约束提出了对候选知识实施众包有效性进行评估的评价函数,该评价函数综合考虑了候选事实的不确定性和矛盾性。在基于图的众包任务选择算法中,我们基于语义约束构建候选知识图,并利用语义约束作为推理规则来剪枝不必要的众包任务。实验结果表明,我们的方法能有效提高知识库质量,并在较低的众包预算下获得优于其它自动算法的性能。(4)针对知识库不完整性问题,提出一种基于嵌入子空间的知识表示学习方法,并利用学习得到的实体和关系向量表示,高效计算实体关系。现有嵌入学习方法都是有监督的学习方法,通常利用已获得的结构化知识来训练模型。本文提出的方法,首先从大量未标注文本样本中无监督估计得到相对高维实体名称的词向量表示,该词向量表示蕴含了实体名称的句法和语义属性;然后再将该向量表示投影到知识库嵌入子空间,利用已获得知识有监督地学习子空间适应矩阵和知识表示。该方法特别适用于只有少量标注数据可以获得的情况,且能够应用于zero-shot场景。