提高数据质量的若干关键技术研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:windamill
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据质量是保证数据能够有效地发挥作用的关键。数据质量的保证贯穿于数据的整个生命周期,它是一个系统过程,是一个质量评估分析和各种数据清洗方法相结合的不断反复的过程。本研究在ETL(extract,transform,load)系统开发和研究的基础上,提出了一个迭代式的数据质量提高框架,并对涉及到的若干关键技术进行了深入探索,主要有以下内容: (1)数据质量评估:研究了如何有效地评估数据质量的问题,提出数据质量是一个背景依赖的问题,不同数据源的数据可以在一定背景范围内相互比较确定一个量化比较的标准;另一方面,通过衡量数据传达的信息量多少对数据质量中若干重要维度进行量化,从而为如何有效地、客观地评估数据质量提供了一条新的途径。 (2)数据规格化:研究了如何实现数据规格化的问题,提出采用基于特征的马尔可夫模型解决特定应用的数据规格化问题,它能够充分地利用数据中的重叠特征,综合数据中的统计规律和特征来实现数据的规格化,具有好的推广应用前景。 (3)结构化数据重复对象识别:研究了关系数据库数据的重复记录识别问题,提出一种基于q-gram(q个连续字符组成的子字符串)层次空间的聚类识别算法。这种方法不仅能避免大量外排序引起的高频度的I/O操作,而且根据q-gram层次空间固有的分辨率层次通过逐步细化聚类米识别相似重复记录,可以克服排序不能保证将相似记录排在邻近位置的缺陷,能取得更好的精度。 (4)xML文档中重复元素识别:研究了XML格式的重复数据元素的特点,提出对于特定应用领域,在具体的上下文环境中学习XML重复元素的识别规则。通过结构转换,将结构不尽相同的XML数据映射成结构一致的数据,并通过学习不同层次数据元素间的依赖关系权重米获得匹配规则。最后根据学习得到的转换和匹配规则,给出了一种有效的重复XML,元素检测算法。
其他文献
自20 世纪70 年代IPv4 诞生以来,随着Internet 的急速发展,IP 地址即将耗尽及路由表急速膨胀的问题日益突出。为了解决Internet 目前所面临的巨大挑战,IETF 制定并完善了新一
现如今,由于工作压力的加大,尤其是对于多数年轻人来说,疏于对自己生活的管理,不注重自己的生活质量,导致多种不良的生活习惯,严重影响了个人的健康状况。传统的活动识别技术
利用驾驶模拟器进行各类驾驶模拟训练特别是飞行训练低成本的最佳选择。在各类模拟器中,与视景系统相结合的基于Stewart平台的运动模拟器能够提供加速度和力的真实感觉,可以获
本文对供应链管理和供应链集成的理论框架做出详细分析,并详细讨论了供应链合作伙伴关系管理的业务过程。在分析了已往模型及其存在的主要问题的基础上提出了基于遗传算法的
目前,影视素材库的管理处于从传统的模拟技术向数字技术转变的过渡阶段,数据存储技术将在近几年得到更快的发展。由于存储管理系统具有较高的技术难度,国内主流市场几乎被国外的
动态隧道算法是一种全局优化研究方法。该算法重复以下两个过程:一是动态优化过程,在该过程中寻找一个局部最小点;二是动态隧道过程,该过程以该局部最小点为基准找到一个更小
书面汉语自动分词是中文信息处理中的重要步骤,它是文本校对、机器翻详、文本分类、文本检索、计算机人机接口等诸多中文信息应用领域的基础。目前汉语自动分词方法主要包括
两层传感器网络中的数据查询是用户获取和分析感知数据的重要手段。由于两层传感器网络具有资源受限、以数据为中心和应用相关等特征,且大都部署于无人值守、复杂多变的环境中
本文将多智能体系统和面向服务的架构的思想架构相融合,将其设计理念引入到微网EMS的管理与控制中,基于IEC61970国际标准,结合微网系统本身的特点,整合了整个微网的公共信息
随着互联网规模的不断扩大及其应用的多元化发展,对网络性能监控和运行管理的要求越来越高。其中对网络流量的测量与分析是网络管理中不可缺少的组成部分。网络管理员可以利