论文部分内容阅读
近年来,针对关联数据(Linked Data)的研究从构建新的关联数据转向了提升关联数据的质量。作为关联数据的最关键要素,关联关系的质量保障尤为重要。然而,由于源数据质量低下、构建方法不佳、缺乏检测与监督等原因,关联关系的质量问题面临相当大的挑战。目前有一些针对特定类型的异常关系的甄别研究,但在广度上十分欠缺。也有一些针对通用类型的关系检测方法,但在深度上明显不足。在此背景下,本文采用环路发现、分层标签、频繁模式挖掘、D-S证据理论、基于协同过滤推荐上位词等技术,研究提出并实现了一套通用的异常关联关系检测技术与方法,包括异常上下位关系检测、异常属性关系检测和缺失关系补全。具体工作如下:1)环路上下位关系的检测与消除。本文研究发现大部分异常上下位关系处于环路之中。本文将关联数据转化成图结构后,进行强联通分解,分解成多个子图,随后在这些独立的子图上基于启发式搜索迭代地发现存在的最长环路,并基于图层次信息和语义信息的分层标签算法来消除环路中不可信的边。2)异常属性关系的检测与剔除。本文研究发现正确关系两端实体的上位词之间存在频繁模式,可利用频繁模式反向检测异常属性关系。为获取上位词,本文从维基百科中抽取了一个分类系统和一个属性知识库,前者用于基于Apriori算法挖掘关系两端实体的上位词频繁模式,后者用于获取外部知识。随后基于D-S证据理论融合频繁模式观察和外部知识观察,综合对关系的可信度进行评估,并剔除低可信度的属性关系。3)上下位关系缺失异常的检测与补全。本文借鉴社交网络推荐人员关系的思想,采用基于协同过滤推荐的方法,发现与补全缺失的关联关系。该方法设计了基于Jaccard相似度和随机游走相似度两类度量构建相似度矩阵,用于寻找相似实体,并采用实体过滤和实体对过滤两种策略加快相似实体查询。随后从最为相似的K个实体的上位词中为当前实体推荐上位词。最后,本文在多个数据集上开展了一系列实验,实验结果表明,采用本文方法,在保证相对较高的召回率前提下,其清除环路异常工作在Probase和SEBase分别达到84.7%和91.9%的准确率;清除异常属性关系工作在Yago和Freebase上分别达到86.8%和91.3%的准确率;缺失关系补全工作在Probase和SEBase分别达到85.1%和90.0%的准确率。