论文部分内容阅读
对于建立在数据仓库之上的决策支持系统,数据的正确性对避免错误的决策是至关重要的,错误的数据将会导致"垃圾进,垃圾出".因此在构建数据仓库时,必须对各种异质数据源进行数据清理,以保证数据质量.数据清理可以划分为若干原子操作,通过原子操作的有机组合执行各种数据清理任务.在此基础上,提出了数据清理系统EDCS的总体结构.异质数据源中存在多条记录指向同一实体的问题,数据清理的一个主要工作就是识别这些近似记录并将其合并.在EDCS中,通过字段值语法上比较结果的综合来决定两条记录语义上是否相似.我们对文本字符串匹配方法进行研究,提出了R<,->EDist方法,将递归匹配思想和编辑距离方法结合起来,既能识别拼写错误,又能够识别子串颠倒和缩写.在字段比较结果进行综合时,提出有效权重的概念,以此消除字段缺失对判断记录相似性的影响,提高了重复记录识别的精确度.数据仓库需要集成大量的数据,快速而准确地识别其中的近似重复记录是数据清理系统实用化面临的一个非常关键的问题.在EDCS中,为了缩小重复记录搜索空间,减少记录的比较次数,我们采用了多趟排序近邻方法和优先队列策略.针对字段的不同特点,使用不同的排序算法,进一步提高了系统的效率.除此之外,我们还提出了增量式重复记录识别的算法,在不损失精度的情况下,有效地节省了时间开销和系统资源.