关系数据库中近似重复记录的识别

来源 :计算机应用研究 | 被引量 : 50次 | 上传用户:chibi2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据清理转换是数据仓库中的一个重要研究领域,其技术难点之一是重复记录的识别。介绍了与重复记录识别相关的字符串匹配方法,详细讨论了识别重复记录的分区式优先队列算法、多趟邻近排序法以及邻近连接法,最后给出了实验结果。
其他文献
首先介绍了计算机支持协同工作的概念和原理,以及CAD/CAM系统发展趋势;然后对支持协同设计的工程CAD/CAM系统的支撑环境、系统协同模型、实时协同设计过程进行了相应的分析与说明;最后设计出一个支持协同设计的工程CAD/CAM系统模型,并在一个纺织面料CAD系统中得以应用。
在介绍文本过滤的背景及传统基于关键词的向量空间方法不足之处的同时,引入了词汇链的概念,提出了基于词汇链表示文本的文本过滤模型,该模型首先对文本进行分析,把文本表示成词汇链的形式,在形成用户初始模板之后,以此模板来进行文本过滤。在用户反馈的基础上,自适应地修改该模板,以适应用户变化的需求及改善系统过滤性能,实验表明,这样的确可以提高系统精度。
数据变换和数据集成等应用需要对XML文档进行更新,而现有的查询语言对此支持不够。提出了一种可更新的XML查询语言UXQL。它具有统一的数据模型,能够同时对多个异构数据源中的文档进行更新和查询操作。同时它的结构简单,可以很方便地实现和优化。详细描述了UXQL的文法和语言成分,并给出了实现框架和应用实例。
介绍了一个基于网络面向并行工程的螺旋锥齿轮CSCW系统,重点讨论了系统开发前期的主要工作———面向并行工程的螺旋锥齿轮设计集成自动化系统。提出了该集成系统的体系结构,研究了其框架模型,介绍了其工作模式,该系统将极大地提高螺旋锥齿轮的设计和加工效率。
网格监控在网格和网格支持的现代协同设计(GMCD)中发挥着重要作用。该系统能针对设计单元的性能数据实施分类监控,跟踪任务的分配和执行情况,监测异常并报警。提出了GMCDMSS的组成结构,确定了其基本功能并介绍了各项功能的实现方案。GMCDMSS有效保障了设计任务的顺利实施,方便了用户对网格资源和任务的监控与管理;它还提供了对性能数据进行分析的手段,便于优化系统性能。
简单介绍了JMX规范,在此基础上,讨论了使用JMX体系结构建立网络管理程序的一般方法,最后结合JMX规范和实现方法,分析基于JMX网络管理系统的优势。
VoiceXML是W3C定义的可扩展标记语言(XML)的一种扩展,根据播放的提示信息、口述的命令、要记录和识别的语音或按键音输入,实现人和计算机之间的交互对话。SIP是由IETF提出的IP电话信令协议,它被用来建立、改变和终止基于IP网络用户间的呼叫。研究SIP服务与VoiceXML的集成,提出了基于SIP协议的SIP VocieXML浏览器的设计方案,并介绍了其工作流程和应用。
首先介绍了中科院计算所织女星企业信息网格(VegaEnterpriseInformationGrid)的背景,分析了企业信息网格资源接口模块的需求,然后根据实际需求提出了资源接口模块的体系结构和设计框架,并结合作者的开发实践说明了模块的具体实现和使用的关键技术,最后对未来的研究和改进作了总结。
传统的基于灰度的匹配算法抗噪声能力和抗局部几何变形能力较差,通过图像熵变换,提出了一种新颖的基于局部最大熵的特征匹配算法;通过局部特征点所在区域的相关匹配,获得具有最大可信度的匹配结果。由于匹配只是在特征点之间进行,且在匹配过程中引入外极线和一致性约束条件,从而大大降低了计算消耗和误匹配率,获得了比较理想的表面离散深度图。
针对工作流管理技术在协同产品商务中的应用,先对协同产品商务的概念和工作流的相关技术进行了探讨,分析了信息时代工作流管理技术的难点,最后得出结论。