论文部分内容阅读
数据质量是保证数据能够有效地发挥作用的关键。数据质量的保证贯穿于数据的整个生命周期,它是一个系统过程,是一个质量评估分析和各种数据清洗方法相结合的不断反复的过程。本研究在ETL(extract,transform,load)系统开发和研究的基础上,提出了一个迭代式的数据质量提高框架,并对涉及到的若干关键技术进行了深入探索,主要有以下内容:
(1)数据质量评估:研究了如何有效地评估数据质量的问题,提出数据质量是一个背景依赖的问题,不同数据源的数据可以在一定背景范围内相互比较确定一个量化比较的标准;另一方面,通过衡量数据传达的信息量多少对数据质量中若干重要维度进行量化,从而为如何有效地、客观地评估数据质量提供了一条新的途径。
(2)数据规格化:研究了如何实现数据规格化的问题,提出采用基于特征的马尔可夫模型解决特定应用的数据规格化问题,它能够充分地利用数据中的重叠特征,综合数据中的统计规律和特征来实现数据的规格化,具有好的推广应用前景。
(3)结构化数据重复对象识别:研究了关系数据库数据的重复记录识别问题,提出一种基于q-gram(q个连续字符组成的子字符串)层次空间的聚类识别算法。这种方法不仅能避免大量外排序引起的高频度的I/O操作,而且根据q-gram层次空间固有的分辨率层次通过逐步细化聚类米识别相似重复记录,可以克服排序不能保证将相似记录排在邻近位置的缺陷,能取得更好的精度。
(4)xML文档中重复元素识别:研究了XML格式的重复数据元素的特点,提出对于特定应用领域,在具体的上下文环境中学习XML重复元素的识别规则。通过结构转换,将结构不尽相同的XML数据映射成结构一致的数据,并通过学习不同层次数据元素间的依赖关系权重米获得匹配规则。最后根据学习得到的转换和匹配规则,给出了一种有效的重复XML,元素检测算法。