基于实体的相似性连接操作的研究

被引量 : 0次 | 上传用户:jushicahgn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着信息生产能力的提高和信息采集技术的进步,不一致、不完备、过时、错误、冗余、不精确的劣质数据普遍存在,严重影响了数据的质量并给社会造成了巨大的经济损失。为了处理劣质数据带来的问题,亟需新的数据管理技术。目前处理劣质数据的方法主要是数据清洗。然而,数据清洗在实际应用中有很大的局限性:不能彻底清除劣质数据,操作代价过大等。不过在很多情况下,我们可以容忍一定程度上的劣质数据,从而查询处理的目标转化为从包含劣质数据的数据库中查询得到满足一定清洁度的结果。当前已经有一些工作研究在劣质数据上的查询处理,不过这些方法只是针对某一种特定类型的数据,并不具备普遍性。因此,需要一种统一的模型来组织和管理劣质数据。在数据库中,多条元组代表同一实体是最常见的劣质数据类型。这些元组中可能包含各种类型的劣质信息。实体识别技术将描述同一实体的元组识别出来,对其进行组织是管理劣质数据的一种有效方法。本文在形式上定义了实体模型、实体关系数据库以及在实体数据上的相似性连接操作。相似性连接操作在数据清洗、信息集成、模糊关键字查询、欺诈检测等众多领域中都有着广泛的应用。基于实体的相似性连接由于属性的多值特征内涵了语义信息,扩展了字符串上仅仅基于语法的相似连接,使得在相似性连接领域中查询处理的结果更加准确和完备。本文研究了实体数据上的相似性连接问题,采用通用的filter-and-verify框架,通过建立新的索引结构和使用新的过滤措施提出了实体的相似性连接算法—ES-JOIN算法。又由于多表连接操作的连接顺序对于连接性能有着重要的影响,本文进一步研究了实体数据上多表连接顺序选择方法:采用基于实体的马尔可夫链蒙特卡洛方法(MCMC)估计出实体数据的相似性连接操作的结果大小,并以连接结果大小和有无索引作为主要代价提出了基于实体的多连接顺序优化策略。最后,通过实验证明了本文提出的针对实体数据的相似性连接算法和连接大小估计算法的有效性。
其他文献
<正>别薄薄一层膜不当回事,你去问问那些妙龄女子就知道利害关系了。当然,此膜非彼膜.但汽车贴膜的重要程度同样不言而喻。你以为你贴的是最安全?你以为它们都系出名门?你以
标识设计的过程即元素的符号化过程,文章以符号学与信息论的理论基础为支撑,研究标识设计作为视觉符号的编码与解码过程。文章将标识设计大体分为了公共标识与品牌标识,分别
纵观世界经济的发展,国际贸易摩擦实际上从国际贸易出现的第一天就产生了。国际贸易摩擦的发生,一方面凸现了国际贸易利益分配的严重不均;另一方面则影响了各国经济的稳定增
工业革命使人类改造自然能力得到了空前提高,社会物质财富急剧增加,人类生活在历经了千年的短缺时代之后迅速进入了剩余时代。在人类急速膨胀的欲望面前,大自然似乎显示出了
本文针对广告在信息高速发展的大潮中,如何对消费活动施行“人文关怀”精神层面的媒介服务,以及媒介个性化趋势的研究。文章指出了传统媒介已经无法满足消费者在同一时间内对
电潜泵作为一种广泛应用的人工举升式采油装备,以其地面工艺结构简单、效率高、扬程排量大、便于管理等特点受到各大油田高度重视。由于所处环境条件复杂恶劣,为保证对石油的高
伴随着化石能源的日益消耗和环境问题的愈发严峻,对清洁的新能源探索已迫在眉睫。近年来,分布式发电输出功率因存在间歇性已处于研究的瓶颈。基于此,微电网应运而生,使得这一
膜法在大型市政污水再生高品质水回用中已得到良好应用。节能正成为大型市政污水再生回用工程技术提升的关键点之一。本文介绍节能型超低压反渗透膜ESPA2+在新加坡Ulu Pandan
采用无接触式电涡流位移传感系统,对复合材料真空辅助成型过程中的厚度变化进行了实时监测。研究了在其他条件相同情况下,树脂粘度、充模距离、铺层厚度、铺覆导流网等对厚度
<正>中国传统价值观的基本内涵(一)价值观价值观就是一定的主体针对特定的客观事物(包括人、物、事)以及自己的行为的总体性的好的、有益的评价,是推动以及指引主体采取决定