关联数据的异常关系检测

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:buhao00155
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,针对关联数据(Linked Data)的研究从构建新的关联数据转向了提升关联数据的质量。作为关联数据的最关键要素,关联关系的质量保障尤为重要。然而,由于源数据质量低下、构建方法不佳、缺乏检测与监督等原因,关联关系的质量问题面临相当大的挑战。目前有一些针对特定类型的异常关系的甄别研究,但在广度上十分欠缺。也有一些针对通用类型的关系检测方法,但在深度上明显不足。在此背景下,本文采用环路发现、分层标签、频繁模式挖掘、D-S证据理论、基于协同过滤推荐上位词等技术,研究提出并实现了一套通用的异常关联关系检测技术与方法,包括异常上下位关系检测、异常属性关系检测和缺失关系补全。具体工作如下:1)环路上下位关系的检测与消除。本文研究发现大部分异常上下位关系处于环路之中。本文将关联数据转化成图结构后,进行强联通分解,分解成多个子图,随后在这些独立的子图上基于启发式搜索迭代地发现存在的最长环路,并基于图层次信息和语义信息的分层标签算法来消除环路中不可信的边。2)异常属性关系的检测与剔除。本文研究发现正确关系两端实体的上位词之间存在频繁模式,可利用频繁模式反向检测异常属性关系。为获取上位词,本文从维基百科中抽取了一个分类系统和一个属性知识库,前者用于基于Apriori算法挖掘关系两端实体的上位词频繁模式,后者用于获取外部知识。随后基于D-S证据理论融合频繁模式观察和外部知识观察,综合对关系的可信度进行评估,并剔除低可信度的属性关系。3)上下位关系缺失异常的检测与补全。本文借鉴社交网络推荐人员关系的思想,采用基于协同过滤推荐的方法,发现与补全缺失的关联关系。该方法设计了基于Jaccard相似度和随机游走相似度两类度量构建相似度矩阵,用于寻找相似实体,并采用实体过滤和实体对过滤两种策略加快相似实体查询。随后从最为相似的K个实体的上位词中为当前实体推荐上位词。最后,本文在多个数据集上开展了一系列实验,实验结果表明,采用本文方法,在保证相对较高的召回率前提下,其清除环路异常工作在Probase和SEBase分别达到84.7%和91.9%的准确率;清除异常属性关系工作在Yago和Freebase上分别达到86.8%和91.3%的准确率;缺失关系补全工作在Probase和SEBase分别达到85.1%和90.0%的准确率。
其他文献
由于在锂离子电池、超级电容器、电催化等领域的大量应用,三维架构化的功能材料吸引了广泛关注。通过采用已经存在的基体作为模板,模板法成为目前最为有效的制备架构化的功能
为了掌握造林地立地条件,找出林木生长中可能存在的限制因素,构建江苏黄河故道农田防护林立地质量评价体系,为农田防护林的科学营建、防护林经营管理效率的提高和区域农田防护林的更新改造提供理论基础。本文在江苏省阜宁县和滨海县黄河故道区域,通过遥感技术分析研究区地形地貌特征,实地选取42条农田防护林带和15条无林地样带,调查其土壤特性,并采用运用多元统计分析、数量化理论Ⅰ等数学理论,开展了江苏省黄河故道区域
摘要:目的:探讨四肢骨折并发骨筋膜室综合症临床护理。方法:收集四肢骨折并发骨筋膜室综合症患者50例,经过切开减压术治疗和全面的护理后,观察其临床效果。结果:50例患者中有2例患
圆锥曲线是高中数学常用的几何模型,是渗透数形结合思想和落实直观想象素养的重要载体,是平面解析几何领域的重中之重。在解决圆锥曲线相关问题时,学生常遇到公式多而混淆、因类型多而无法正确选择、综合性过强而无从下手等困难,分析其主要原因是学生缺乏良好的学习过程,对知识更多的停留在工具性理解,而未达到关系性理解层面。探索圆锥曲线行之有效的教学模式,优化教学设计,提高教学效率成为亟需。ACT-R理论是一种认知
采用D132焊条在45钢母材金属上进行焊条电弧堆焊,熔敷金属为两层。为了减小熔敷金属内的焊接残余应力,改善其组织结构和硬度,对试样进行焊后热处理,回火温度分别为400℃、550℃和
综述了表面活性剂在催化反应和乳液聚合等化学反应过程中的应用,同时阐述了其在纳米材料、电子陶瓷等制备中的应用。最后对表面活性剂在化学反应过程以及材料制备领域的应用前