基于多形态非主属性数据的实体匹配算法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:wangruiqiangkang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的高速发展,各领域数据的量级呈现爆炸式增长,伴随而来的数据质量问题,如数据失真、数据过期、数据缺失、数据表达不一致等问题,也日益凸显。本文主要研究数据质量中的一个重要课题――实体匹配问题,即识别单源或多源数据中指向同一实体的数据库记录。目前主流的实体匹配方法主要通过度量各实体主属性值之间的字符串相似度,根据预定义的相似度阈值从而做出是否匹配的决策。然而,含义相同的主属性值在表达形式上可能千差万别,而含义不同的主属性值也可能表示同一实体。因此,没有任何一种相似度度量方法可以准确度量所有主属性值之间的相似度,且一个统一给定的相似度阈值也会极大影响实体匹配的准确率和召回率。为了解决以往方法中的问题,本文提出了基于多形态非主属性数据的实体匹配算法,通过在多种非主属性值上的文本分析和相似度计算进行实体匹配。本文提出的方法是对已有的基于主属性方法的补充。与仅使用主属性的方法相比,本文主要关注如何使用非主属性提高实体匹配的准确率和召回率。具体研究内容如下:(1)本文着重研究了实体匹配问题,介绍了已有的实体匹配方法,描述了具有代表性的各类算法的优势,并分析了其中存在的问题。(2)提出了基于结构化非主属性数据的实体匹配算法。算法通过选择具有较高识别力的属性进行匹配,不需要外部资源的帮助,获得了很好的匹配效果。(3)提出了基于文本类型非主属性数据的实体匹配算法。算法通过挖掘文本数据中的关键信息进行实体匹配,不仅增强了的适用性,而且提高了匹配的准确性。我们在数据集上验证了本文提出方法的效果。实验结果表明,本文提出的实体匹配算法在准确率和召回率方面都要优于以往的各类主流匹配算法。此外,本文提出的基于非主属性实体匹配算法在效率方面也得到了很大提升。
其他文献
随着社会经济的发展,大城市面临交通拥堵问题。发展公共交通是缓解城市交通拥挤的有效方式。公交车辆调度问题是公交运营过程中的重要问题。纯电动车因具有运输成本低、低噪声、零排放等特点,受到政府的关注,但因其续驶里程短,充电时间长,电动车辆调度问题更加复杂。多车场公交车辆调度能动态调配各线路上的公交车辆,节约公交运营成本,因而是当前公交车辆调度的研究热点。然而,当前多车场电动公交车辆调度研究还非常有限。本
随着互联网技术的发展和大数据时代的到来,数据量的爆发式增长和大数据分析技术的成熟使用户画像成为自然语言处理、数据挖掘等领域的重要研究课题。性别作为建立用户画像的
现今,随着移动互联网,物联网等以无线信息通信技术为基础的新兴行业的发展,频谱需求更胜从前,与旧有频谱管理模式的摩擦与碰撞也日趋显著。为保证通信产业持续,健康发展,需要
随着信息产业的兴起到蓬勃发展,软件开发的管理与协调已经逐渐形成了一门必不可少的开发技能,由多个单元协作来完成各个庞大的软件系统之间的协作显得越来越普遍,随之而来的,
随着移动互联网应用的普及,用户每天接触的信息量成倍增长,对信息的敏感度下降,这就导致商业服务机构精准地向用户发送用户感兴趣的营销信息变得异常困难。在商业信息服务领
CRAN(Cloud Radio Access Network)是由中国移动研究院从降低网络建设维护成本的角度出发而提出的一种新的无线网络架构方式。在这种架构中,基带处理单元进行集中式部署,形成
在移动互联网迅速发展的背景下,手机电视、视频会议等广播视频业务逐渐成为移动视频业务的新热点。传统数字视频编码中,由于信源信道编码相互分离,无法为不同信道状况、不同
语音识别是由声学模型解码与语言模型解码两部分共同作用下完成的,其中语言模型是语音识别一项重要的技术,也是语音识别当中的重要研究部分。传统的语言模型解码一般采用2-gr
Ⅲ族化合物半导体薄膜的研究在近几年来是一个研究热点,例如氧化镓(Ga2O3)、氧化铟(In2O3)、氮化镓(GaN)、氮化铟(InN)以及三元化合物铟镓氮(InxGa1-xN)。它们都是直接带隙n
X射线脉冲星导航是未来深空自主导航的一种方法,该方法采用脉冲星X射线脉冲作为导航信号源,具有独立性好、使用权不受限制、能够提供精准的时间参考等优点,因此美国、欧洲以