近似重复记录的增量式识别算法

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:maming821023
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据清理是数据仓库中的一个重要研究内容,近似重复记录的识别是其中的一个技术难点。文章介绍了近部排序方法,并以此为基础,研究了在数据模式与匹配规则不变的前提下,数据源动态增加时近似重复记录识别问题,提出了一种增量式算法IMPN(Incremental Multi-Pass sorted—Neighborhood)。文章最后给出了实验结果。
其他文献
项目化学习是一个问题解决的过程,在教学中开展项目化学习,不仅可以让学生全身心投入问题解决,实现知识的融会贯通,更是激发学生学习内驱力的有效方法,有利于學生综合素养的全面发展。在语文主题单元的学习中引入项目学习所具有的问题的真实性、过程的探究性、学习的开放性、结果表达的多样性等核心理念,优化主题单元教学,以一种新的课程形态来适应儿童的需要与生长,将培养儿童成为心智自由的学习者这一目标落到实处。  项
美国洛杉矶艺术中心设计学院理论系教授王受之提出,地标性建筑应随文化背景应运而生。现在被我们无异议地称为地标性建筑的,都是经过时代的沉淀,在一段时间后由民族内部的精英设
故宫博物院院长单霁翔认为,调和故宫博物院“宫”与“院”矛盾的关键是,既保证故宫完整性,又能够增大展示空间、拓展保护空间。基于这一宗旨,故宫博物院正在进行建立新院区的可行
小学数学教学中的提问是数学教学的重要手段,提问的形式和提问的内容,直接决定着提问教学的效果。数学教学中的提问很多,提问时要精心设计提问的内容、提问的形式,做到提问有重点,提问有艺术,学生回答有兴趣。  一、数学提问的问题要明确  小学数学教学中,提问是教学的重要内容和形式。对于启发学生思维和引导学生学习具有十分重要的作用,但许多老师在提问中都局限于是什么、是多少、对不对等简单的没有思考价值的提问,
VPN技术应用日益广泛,IPSec已成为实现VPN的主流方式。Windows操作系统在国内广泛流行,掌握Windows平台的IPSec开发技术,对于促进国内VPN技术的发展有重要意义。该文介绍了在Win
DiffServ的引入使得ISP可以根据不同的数据类型和用户服务要求来提供不同QoS水平的服务。但是,如果ISP不能对所提供的服务进行有效的计费管理,那么DiffServ的这个优点仍然不能