论文部分内容阅读
日益发展的网络和飞速膨胀的信息给人们带来了很多的便利,人们已经开始习惯于上网发布信息,查找资料,网上科研。各种各样的应用系统和web服务出现了丰富的数据资源。为了能有效利用这些现有资源,必须进行数据集成或者数据挖掘。但是,由于数据源种类繁多,而且信息更新快,很多数据由于各种原因得不得及时更新形成了大量过时数据,加之各数据源的异构性,使得集成数据中含有大量的“脏数据”,即存在数据质量问题;主要表现为:拼写问题、录入错误、不合法值、空值、不一致值、简写、同一实体的多种表示(重复)、不遵循引用完整性等。由于不同数据库之间对数据表示的差异或者因为录入错误等人为的原因导致集成后的数据库中同一实体对应多条记录,这些重复的记录可能导致建立错误的数据挖掘模型,给后期数据的决策分析产生很大的影响。因此,判断两条记录是否相似重复在数据集成、数据仓库中很重要。实体统一(Entity Resolution, ER)是用来判断多条记录是否指向相同的实体的问题,则上述的检测这些重复数据即是进行实体统一。实体统一是数据整合和数据清理的重要组成部分,通过消除冗余,为分析、挖掘提供高质量的数据支持。本文据现有研究存在的问题,提出了两种实体统一的方法,一是提出基于权值分级的实体统一方法。根据分级法计算每个字段的权值,按照分级思想,选择某关键字段或字段某些位将大数据集分割成许多不相交的小数据集,再在各个小数据集中进行实体统一,并引入多趟查找算法反复进行实体统一;二是提出了领域相关的整体式实体统一方法,综合运用了属性,上下文,和关系这三种相似度度量方法,来处理相似度,然后放入本文提出的整体式聚类算法中进行实体统一。其主要贡献:(1)在分析现有重复记录检测实体统一方法的基础上,提出领域无关的基于权值分级的实体统一的算法。算法运用分级划分思想,即把大的数据集分割成很多不相交的小数据集,再在小数据集中分别查找重复记录,即采用了分而治之的思想,并进行多趟查找,实验证明这种方法提高了实体统一检测的精度和效率。(2)针对待统一实体本身之间具有丰富关系的场景,比如文献、社会关系网等领域,提出了一个领域相关的整体式实体统一的方法。该方法综合运用了属性,上下文,和关系这三种相似度度量方法,来处理相似度,并用本文提出的聚类的实体统一算法来处理,比较全面的准确的计算出相似度,对几个数据集试验评价表明该方法查准率高、效率好。(3)实体表象之间的紧密关联暗示了潜在团体的存在。为了度量这个紧密关联的程度,我们引入数据结构---拟团,定义了拟团相似度,用来衡量和计算关系相似度;从而提高了整体式实体统一方法检测的查准率。