论文部分内容阅读
近年来,随着信息生产能力的提高和信息采集技术的进步,不一致、不完备、过时、错误、冗余、不精确的劣质数据普遍存在,严重影响了数据的质量并给社会造成了巨大的经济损失。为了处理劣质数据带来的问题,亟需新的数据管理技术。目前处理劣质数据的方法主要是数据清洗。然而,数据清洗在实际应用中有很大的局限性:不能彻底清除劣质数据,操作代价过大等。不过在很多情况下,我们可以容忍一定程度上的劣质数据,从而查询处理的目标转化为从包含劣质数据的数据库中查询得到满足一定清洁度的结果。当前已经有一些工作研究在劣质数据上的查询处理,不过这些方法只是针对某一种特定类型的数据,并不具备普遍性。因此,需要一种统一的模型来组织和管理劣质数据。在数据库中,多条元组代表同一实体是最常见的劣质数据类型。这些元组中可能包含各种类型的劣质信息。实体识别技术将描述同一实体的元组识别出来,对其进行组织是管理劣质数据的一种有效方法。本文在形式上定义了实体模型、实体关系数据库以及在实体数据上的相似性连接操作。相似性连接操作在数据清洗、信息集成、模糊关键字查询、欺诈检测等众多领域中都有着广泛的应用。基于实体的相似性连接由于属性的多值特征内涵了语义信息,扩展了字符串上仅仅基于语法的相似连接,使得在相似性连接领域中查询处理的结果更加准确和完备。本文研究了实体数据上的相似性连接问题,采用通用的filter-and-verify框架,通过建立新的索引结构和使用新的过滤措施提出了实体的相似性连接算法—ES-JOIN算法。又由于多表连接操作的连接顺序对于连接性能有着重要的影响,本文进一步研究了实体数据上多表连接顺序选择方法:采用基于实体的马尔可夫链蒙特卡洛方法(MCMC)估计出实体数据的相似性连接操作的结果大小,并以连接结果大小和有无索引作为主要代价提出了基于实体的多连接顺序优化策略。最后,通过实验证明了本文提出的针对实体数据的相似性连接算法和连接大小估计算法的有效性。