基于嵌入模型的知识图谱补全方法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:alivealive
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,互联网数据出现了爆炸式增长,知识图谱的规模也变得越来越大,但是数据的增长却使得知识图谱的质量急剧下降,内部信息变的越来越不完善。因此,为了使现有知识图谱更加完善,需要不断地添加新的客观事实进行补全。早期的知识图谱补全工作基本采用人工方式来构建事实三元组并添加到知识图谱中,但是这种方式往往效率低下且对知识图谱的扩展具有很大的局限性,已经无法满足规模日益增大的知识图谱补全工作。因此,设计出一种自动知识图谱补全方法来对知识图谱进行补全具有重要研究和应用价值。最初,利用独热编码对知识图谱中的研究对象进行表示得到了发展,但是这是建立在所有对象相互独立的基础上,会破坏知识图谱内部的结构信息,无法充分利用实体间的语义信息。然而最近几年,基于翻译操作的知识图谱嵌入模型由于将关系表示为实体间的翻译操作而有效地挖据出三元组的结构信息,使得其表现出了强大的有效性和鲁棒性,在知识图谱补全工作中发挥了巨大的作用。但是目前的翻译嵌入模型面临着实体和关系表示能力不足、忽略丰富的附加信息以及负例三元组质量低等一系列问题。针对以上这些问题,本文提出了基于关系路径和实体描述的知识表示方法(Multiple-Path and Entity Description Embedding Model,简称MPED)、基于实体、关系嵌入和关系类别的知识表示方法(Category of Relation Embedied Knowledge Embedding Model,简称CREKE)和基于谱聚类的知识表示方法(Trans E-Spectral Clustering,简称Trans E-SC),并在一定程度上解决了上述问题。本文主要研究工作如下:1)为了弥补基于关系路径信息的知识表示学习方法在实体链接预测上的不足以及解决数据稀疏问题,本文提出了将多步关系路径信息与实体描述信息相结合的知识表示方法MPED,通过将实体描述信息引入基于关系路径的知识表示方法(Modeling Relation Paths for Representation Learning of Konwledge Bases,简称PTrans E)中,并建立实体与关系向量联合学习框架,使得在实体和关系向量都具有更加精确的表示。通过链接预测以及实体分类实验表明相对于只利用关系路径信息的模型以及其对比方法来讲,MPED能够显著提高实体与关系的向量表示的质量。2)对于大部分知识图谱表示学习方法只利用三元组的结构信息而忽略了丰富的关系类别信息这一问题,本文提出了将实体、关系向量表示与关系类别相结合的知识表示方法CREKE,该方法通过将多元高斯混合分布与关系类别分布相结合,为每一个关系类别学习出一个分布式表示,并将基于实体、关系的向量表示和关系类别的分布式表示形成联合学习框架,使用闭环策略进行学习。实体、关系的向量表示与关系类别的分布式表示相互促进,共同学习,使得关系向量表示中包含类别信息。通过链接预测和三元组分类实验验证了CREKE具有一定的有效性,关系类别信息对于知识图谱补全工作具有明显的积极作用。3)为了解决知识嵌入模型在训练过程中使用随机替换方式生成低质量负例三元组进而导致模型训练效率低这一问题,本文提出了一种基于谱聚类的负例三元组生成方式来提高负例三元组的质量,具体来说就是先使用谱聚类算法将所有实体向量进行聚类,使得相似实体处在同一实体簇中,当我们通过替换正例三元组的头、尾实体来生成负例三元组时,需要找到与待替换实体所在簇中相似度最高的实体进行替换,这样才可以得到高质量的负例三元组。我们将这种负例三元组生成方式与Trans E相结合提出了Trans-SC模型。通过链接预测和三元组分类实验,验证了Trans E-SC模型相对于很多基准模型,在多数情况下取得了较好的性能。
其他文献
随着科学技术的高速发展,以及信息表示形式的多样化,对于省级科技部门而言,科学、精准、高效地跟踪与获取国家层面的科技热点主题,进而做出前瞻性科技决策,对于促进省域科技创新,具有重要意义。为此,本文研究领域科技热点主题挖掘,以便为科技部门进行决策辅助,就显得十分必要。具体工作如下:通过查阅大量的文献,了解科技决策的研究方向与研究方法,总结归纳出目前研究的不足之处,进而提出本文解决科技决策的流程,即主要
无线电能传输(Wireless Power Transfer,WPT)技术凭借非接触性电能传输的特性,近年来在消费电子、电动汽车、医疗电子等领域得到了广泛关注和初步应用。随着无线电能传输技术的快速发展,如何提高电能传输效率成为了制约该技术得到广泛应用的主要因素。通常,无线电能传输系统一次侧的电容和电感值需要进行精确设计,以使系统工作在谐振状态下。为此,本文提出了一种阻抗自适应调整(Autonomo
蚜虫是众多农林植物的重要害虫,具有繁殖力强,世代多,分布广泛,危害性强的特点。大面积、高强度的化学防治,又带来了蚜虫的抗药性及环境污染等问题。昆虫天敌与昆虫病原真菌在蚜虫控制上的应用潜力已充分得到证实。本文利用前期研究筛选得到的蚜虫高毒力菌株玫烟色虫草(Isaria fumosorosea)Ifu13a菌株和球孢白僵菌(Beauveria bassiana)Bb202菌株,通过室内生物测定及智能人
诉权是最基本的权力之一,是所有权利社会正当性的体现。我国民诉法规定了环境民事公益诉讼制度,而环保法等相关法律的补充又使得环境民事公益诉讼制度越来越完善,但是从法院审理的案件与地方环境污染状况可知,这项制度仍有不足,环境民事公益诉讼应有的效果尚未得到良好发挥。就原告资格问题来说,目前我国公民不是环境民事公益诉讼的原告,环保法中虽规定了公众环境权益,然而公民个人发现侵犯公共利益的行为时,仍无向法院请求
作为团体意思的形成方式,决议行为是以团体成员之表决行为为构成要素,通过民主多数决程序变动团体内部法律关系,并约束全体成员的独立法律行为。其与单方法律行为、合同及共同法律行为并立,这种体系划分是以法律行为中所含之意思表示的互动规则为归属标准。而意思互动规则是除单方法律行为以外,法律行为成立的必要构成要件之一,决议行为的意思互动规则即意思表示的民主多数决规则。决议行为因其民主多数决规则所独有的对内约束
富川民间谚语是富川各民族人民智慧的结晶,作为生产与生活经验的总结,它们也是富川人民劳动经验、处世之道、社会生活及审美价值的生动体现。文章主要从社会语言学视角,以富川谚语为分析对象,研究其语言学特点。通过对田野调查和文献查询收集到的674条谚语进行研究分析,运用社会语言学等语言学理论,对其中的谚语词汇、语法结构、语义特征等方面进行系统的探讨和研究,并进一步挖掘富川民间谚语背后所蕴含的文化意义,为少数
人是社会的主体,而人的数量和质量发展本质上属于社会现象。人口数量和质量的发展变化过程是以人的生理条件、自然条件及社会生产力为基础的社会过程,适度的人口数量和质量有利于促进社会生产力发展,推进人类文明进步,人口数目及比例失衡将严重影响社会发展和生产力进步。上世纪70年代初期,为了遏制人口的过快增长,提高人口质量,我国开始实行计划生育政策,并成为我国的一项基本国策。但是,随着我国老龄化与少子化的人口结
在最近的几年里,移动支付的出现和普及,给人们的日常生活出行带来极大的便捷的同时也出现了大量用户隐私信息泄露的问题。本文站在攻击者的角度,研究了一种潜在的隐私信息攻
直播逐步成为互联网行业的新风口。在过去的10年中,大量直播平台在移动互联网快速发展的推动下迅速崛起,成为市场份额极高的移动应用。直播已经融入人们的日常生活,成为人们展现自己,传播信息不可或缺的网络工具。当下的主流直播技术由于传输协议不同,软硬件不兼容,其开发与维护的成本越来越高,中心化的直播服务器极其消耗带宽,用户的冗余带宽却并没有得到充分利用。同时,直播平台用户准入机制不严格,网络直播相关法律法
党的十八大以来,我国为优化营商环境出台了很多相关政策,尤其在深化放管服改革方面尤为突出。深化“放管服”改革,是优化营商环境、激发市场活力和创造力的重要举措。为实现公共政策的预期目标,最根本在于有效的政策执行。从中央到地方,从政策的发布到贯彻落实,作为政策执行末端的基层政府,将政策执行到位是最理想的状态,但实际上,政策执行过程中存在诸如政策被选择性执行、政策内容被曲解、政策被象征性执行、政府失信行为