集成数据中实体统一技术的研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:known9
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
日益发展的网络和飞速膨胀的信息给人们带来了很多的便利,人们已经开始习惯于上网发布信息,查找资料,网上科研。各种各样的应用系统和web服务出现了丰富的数据资源。为了能有效利用这些现有资源,必须进行数据集成或者数据挖掘。但是,由于数据源种类繁多,而且信息更新快,很多数据由于各种原因得不得及时更新形成了大量过时数据,加之各数据源的异构性,使得集成数据中含有大量的“脏数据”,即存在数据质量问题;主要表现为:拼写问题、录入错误、不合法值、空值、不一致值、简写、同一实体的多种表示(重复)、不遵循引用完整性等。由于不同数据库之间对数据表示的差异或者因为录入错误等人为的原因导致集成后的数据库中同一实体对应多条记录,这些重复的记录可能导致建立错误的数据挖掘模型,给后期数据的决策分析产生很大的影响。因此,判断两条记录是否相似重复在数据集成、数据仓库中很重要。实体统一(Entity Resolution, ER)是用来判断多条记录是否指向相同的实体的问题,则上述的检测这些重复数据即是进行实体统一。实体统一是数据整合和数据清理的重要组成部分,通过消除冗余,为分析、挖掘提供高质量的数据支持。本文据现有研究存在的问题,提出了两种实体统一的方法,一是提出基于权值分级的实体统一方法。根据分级法计算每个字段的权值,按照分级思想,选择某关键字段或字段某些位将大数据集分割成许多不相交的小数据集,再在各个小数据集中进行实体统一,并引入多趟查找算法反复进行实体统一;二是提出了领域相关的整体式实体统一方法,综合运用了属性,上下文,和关系这三种相似度度量方法,来处理相似度,然后放入本文提出的整体式聚类算法中进行实体统一。其主要贡献:(1)在分析现有重复记录检测实体统一方法的基础上,提出领域无关的基于权值分级的实体统一的算法。算法运用分级划分思想,即把大的数据集分割成很多不相交的小数据集,再在小数据集中分别查找重复记录,即采用了分而治之的思想,并进行多趟查找,实验证明这种方法提高了实体统一检测的精度和效率。(2)针对待统一实体本身之间具有丰富关系的场景,比如文献、社会关系网等领域,提出了一个领域相关的整体式实体统一的方法。该方法综合运用了属性,上下文,和关系这三种相似度度量方法,来处理相似度,并用本文提出的聚类的实体统一算法来处理,比较全面的准确的计算出相似度,对几个数据集试验评价表明该方法查准率高、效率好。(3)实体表象之间的紧密关联暗示了潜在团体的存在。为了度量这个紧密关联的程度,我们引入数据结构---拟团,定义了拟团相似度,用来衡量和计算关系相似度;从而提高了整体式实体统一方法检测的查准率。
其他文献
虚拟内窥镜是通过计算机图形图像处理、图像数据可视化、虚拟现实等技术将病人 CT或 MRI图像数据重建还原为三维结构,进而对病人组织器官检查诊断的技术。虚拟内窥镜主要用于
在过去的几十年中,带式输送机一直朝着长距离、高带速、大功率、高适应性的方向发展。随着带式输送机的距离越来越长、运量越来越大、布置越来越复杂,其动力学特性也越来越复杂
云计算、大数据、信息安全作为信息技术发展的重要手段承载了当今社会发展的方方面面,云计算以其符合时代需求的服务方式和高性能从2006年提出至今便获得了井喷式的发展,可以预
互联网为信息的共享和交互提供了一个便利的平台,但其开放性同时也对信息的安全性提出了严峻的挑战。在现代互联网高速发展的同时,计算机安全问题日益突出,信息安全已经逐渐
域名系统(Domain Name System, DNS)是Internet的核心技术之一,提供了针对域名和IP地址间相互映射的解析服务。人性化的域名为Internet用户接入互联网的操作提供了便利,域名
射频识别技术(Radio Frequency Identification,RFID)是一种非接触式自动识别技术。随着 RFID技术的不断发展,它所应用到的领域和地区在不断扩大,草原畜牧业作为地区经济发展的
支持向量机(Support Vector Machine,SVM)是近年来受到广泛关注的一类学习机器,它以统计学习理论为基础,具有全局最优、适应性强、推广能力强等优点,已成功应用于模式识别、
油气储层在我国石油工业中占有非常重要的地位。三维地质模型数据量庞大,一般包括数百万到数千万个三维网格体数据,通常不能把这样的地质模型直接应用到模拟系统中。对这样大
图像配准是图像处理领域的一个重要研究方向,是完成图像融合工作最基本的一步,在医学、遥感和军事等领域具有很强的应用价值。虽然同一场景的多模态图像在灰度属性和分辨率等
网络最重要的功能就是实现信息的传输与共享。现有网络中的数据都是依靠中间节点以“存储-转发”方式来传送。在实际应用中也先后出现了C/S和P2P架构,它们具有简单存储转发机