基于语义的知识图谱清洗及优化技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:bright_123456789
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网时代的到来,信息化已经成为当今社会的趋势。随着计算机技术在工业界、产业界以及人们日常生活中的广泛应用,产生了海量的数据。在海量数据中,往往包含着丰富的信息,有待于发掘和分析,为智能化时代的智慧问答、辅助决策、推荐系统等提供更加有力的支撑手段和理论依据。因此,从海量的数据中提取有效的信息,并归纳总结成能够为各行各业提供帮助的知识,已经成为大数据时代人们的共同目标。在人工智能技术、机器学习技术的发展和创新的背景下,诞生了大量的分析、挖掘和处理海量数据的方式。通过应用统计学习方法、深度学习方法等,在海量数据中总结和发现规律,已经成为了当前的趋势。然而这些方法中普遍更加注重对数据规律的发现,而缺少对数据中语义信息的挖掘。在谷歌公司于2012年提出知识图谱的概念后,陆续出现了许多通用领域知识图谱,如Freebase,YAGO,DBpedia等。通过语义网络的结构,将现实世界中的事实用计算机能够理解的形式表示出来。除通用领域知识图谱外,各行各业都致力于打造属于自己领域的专业知识图谱,也称之为垂直领域知识图谱。在知识图谱生命周期中,除了知识图谱的构建和推理计算外,两个重要的环节是知识图谱的清洗和更新。对于提供查询服务的知识图谱而言,衡量其效果的两个重要指标就是查询的时间和准确率。然而在知识图谱的构建过程中,不可避免地会出现冗余和错误知识,对知识图谱查询的准确率造成影响。此外,在实际应用中,很多企业对知识图谱的清洗不够重视,导致知识的大量堆积,既会造成查询效果差的问题,也会给企业维护知识图谱带来巨大的压力。基于上述问题,本文针对以下三个方面,面向查询需求,对知识图谱清洗和更新进行了研究和验证:第一,知识图谱子图谱提取。为了更加有效地利用海量数据中的信息和知识,为查询系统使用者提供更加精准、高效的查询服务,进而辅助用户决策、系统推荐等功能和服务,本文提出了一种面向查询的子图谱提取技术。利用提出的节点保留概率模型,结合用户的查询兴趣与知识图谱中实体节点的类别,进行综合的评估,完成了子图谱节点的筛选和保留。在Freebase子集上的实验表明,通过该子图谱提取模型,会在保证用户查询准确程度的基础上,大幅降低子图谱中无关的节点数量,降低查询时间。第二,子图谱清洗技术。针对子图谱中存在的冗余知识和错误知识,提出了一种基于图嵌入技术的知识图谱清洗技术。首先,利用Trans R翻译模型,将自然界的知识表示为低维空间中的向量。接下来,由清洗模型进行基于语义相似度比较的冗余知识处理,将子图谱错误发现问题转化为多类分类问题,并根据图嵌入的结果进行填充和校正,实现知识图谱的清洗。实验表明,通过清洗技术,能够有效地在知识图谱中发现和去除冗余和错误的节点。第三,子图谱更新技术。本文提出并分析了在知识图谱更新环节中,原有知识图谱与子图谱同步过程中可能会发生的问题。针对子图谱需要进行更新的几种情况,提出了更新预测模型。由于在子图谱的实体节点之中,有更新相关标签的样本数量远少于无更新标签的样本数量,因此本文采用了半监督学习中的生成式方法训练预测模型。本文提出的子图谱更新属于增量更新方式,比起采取对整个子图谱进行更新的方式,只关注部分发生改变的实体节点进行更新,会更加节省计算资源和更新所需时间。
其他文献
事件抽取是指从自然语言文本中抽取其中包含的结构化事件信息的任务。事件抽取任务按照抽取目标是否限定为特定领域的事件,可以分为限定域事件抽取和开放域事件抽取。限定域事件抽取需要先指定抽取的领域,人工预定义该领域的事件模式,并基于此进行该领域事件抽取。开放域事件抽取是指在不限定事件类型及模式的情况下,从文本中检测不限定类型及模式的事件并对事件论元信息进行抽取。限定域事件抽取任务的方法往往存在领域间迁移困
随着软件项目需求的急速增长,在软件设计与实现的过程中难免会存在一些缺陷。当软件项目的使用者以及测试人员,发现程序运行过程中出现与预期结果不一样的情形时,会及时向缺陷追踪管理系统报告自己发现的缺陷。但对于大型开源软件项目而言,缺陷追踪管理系统每天都会收到大量的缺陷报告。如果依靠开发人员手动检查并寻找相关源代码所在位置,是一件极其耗费时间与精力的事,因此将缺陷报告中的缺陷自动定位到相关源代码就显得至关
随着当今技术的快速发展以及数据产生方式的多样化,人类所拥有的数据规模日趋庞大,海量数据带来了客观的数字价值,同时也在数据质量方面带来了更多的挑战。时间序列数据是伴随物联网的飞速发展产生的数据,工业界中的时间序列数据往往存在数据异常、数据乱序、属性值缺失、属性值错位等问题,其中属性值错位问题相关的研究比较少,但该问题在工业场景中十分常见,因此研究该问题具有重要的意义。本文从面向实际的数据流场景出发,
理解在软件仓库中执行的维护活动可以帮助软件从业者减少维护成本,做出关于资源分配的决策,从而提高效益。对于大多数软件系统来说,bug是通过软件仓库的问题追踪系统来跟踪的,代码变更是以提交给源代码控制库的形式来合并的。因此,检查软件开发的这些基本工件(新的错误报告或提交)来实时检测bug是很方便的。本文的目标是自动对软件开发过程中的一系列提交进行高精度分类,将提交分类为bug修复相关或与bug修复无关
近几年,以MOOC平台为典型代表的在线教育平台正迅猛发展。在线教育没有中高考等门槛,没有必须在某个地方才能学习的要求和弊端。这让每个人都可以平等地享受到名牌大学的优质教育,学习者可以根据自己的兴趣和需求,自由地选择有兴趣的,流行的或者是大家都称赞的课程。但是,这在为学习者学习提供极高的便捷性的同时,也割裂了传统课堂学习环境下,学习者和其他人的直接接触。由此导致了学习者总是习惯于独自学习,没有动力去
在实际的深空探测任务中,当探测阶段处于接近段时,探测器距离小天体较远,搭载在探测器上的窄视场相机无法清晰地观测到小天体表面的纹理信息,只能观测到轮廓信息。在此阶段准确恢复出的小天体模型,会为近距离详细测绘阶段探测规划提供依据,同时为近距离高精度小天体三维重建任务提供初始模型。如何应用小天体的轮廓信息准确恢复其三维模型对于小天体探测任务具有重要意义。本文从相机外参数精准、相机外参数存在误差两方面出发
近年来,人工智能技术(AI)已经在很多领域获得了极大的发展,但高精度机器学习模型往往依赖大量的有标注数据,而在很多诸如医疗、军事等实际的应用场景中,样本的获取非常困难,标注也需耗费高昂的人力成本,这极大的限制了AI的应用。此外,现在的机器学习模型越来越庞大,利用大量数据从头训练需消耗巨大的计算资源,然而,人类却具有利用少量样本快速学习的能力。因此,使机器也像人类一样具有在少样本条件下进行鲁棒性学习
考试是一种严格的知识水平鉴定方法。通过考试可以考核学生的学习能力和知识储备。为了保证考试结果的公正、公平性,考场必须要有很强的纪律性和约束性,并且专门设置有主考、巡考等考场工作人员监督考试过程,绝对禁止任何形式的作弊行为,否则作弊考生将要承担法律责任和刑事责任。传统的监考手段主要依靠人力监考,即在每个考场设置相应的考场工作人员进行监考、巡考、处理考场突发情况等事务。大规模的集中考试会消耗考试机构大
随着计算机软件的蓬勃发展,软件漏洞的数量也飞速猛增。漏洞修复成为越来越重要的问题,传统的代码审查对于软件从业人员专业素养要求较高,而且随着软件规模的增大,仅依靠代码审查无法满足漏洞检查的要求;基于规则的漏洞自动化检查技术对代码进行检查需要依靠专家所定义的规则;传统机器学习方法对漏洞进行检查需要人工提取特征;近年来深度学习的发展为漏洞检测提供了新的研究方向。然而现有的研究存在对代码的结构信息利用不全
阀门轴是决定阀门质量和可靠性的关键零件,其加工方面的瓶颈近几年已基本解决,检测方面却形成短板效应:尺寸公差主要靠人工检测,形位公差主要靠设备保证,对于加工后的变形则主要靠零件返修。使用落后的检测方式难以保证航天产品的可靠性,因此研究设计一套专用的阀门轴类零件作用直径自动测量系统是十分有必要的。本文提出了一种轴类零件作用直径自动测量系统的设计方案,设计采用线性CCD对待测轴类零件直径与作用直径进行非