论文部分内容阅读
随着计算机网络和信息技术的飞速发展,许多复杂庞大的异构数据集应运而生。为了有效利用这些异构数据,通常采用数据集成的方法,而模式匹配正是数据集成的核心技术。然而,许多数据集具有典型的异构性,并可能存在语义信息不明确、缺失数据、模式信息不全等问题,导致传统的模式匹配技术无法适用。针对上述问题,本文主要致力于模式信息完整与模式信息未知或者不全情况下的模式匹配技术的研究,分别提出了适用于不同情况下的模式匹配方法。对于具有完整模式信息的数据,本文提出采用一种基于语义信息和函数依赖的模式导向的模式匹配方法,该方法从分析模式元素的语义信息和结构信息两个角度出发,展开模式匹配过程。首先借助WordNet计算模式元素之间的语义相似度,并将其作为初步的筛选条件,得到待匹配元素的候选匹配集合。接着以函数依赖图的形式准确地描述模式的结构信息,考虑隔代依赖关系挖掘模式的深层结构信息,计算模式元素之间的结构相似度。最后通过分析语义相似度和结构相似度,动态自适应地生成概率因子,调节初步计算后的结果,从而最终筛选出属性元素之间全面合理的映射关系,实现模式信息完整的情况下灵活高效的模式匹配操作。对于由于数据库最初设计者文档的丢失或者失效、数据库的演化、访问权限受限等现实问题导致的模式信息丢失或者不全的情况,本文提出了一种基于信息论的数据驱动模式匹配方法。该方法完全基于数据本身的分布而不依赖于任何外部知识,首先借鉴已有的信息论概念定义了一种基于信息论的模型,更细粒度地描述数据集中各个属性列数据的分布特点和属性列之间的关联关系,从而计算出属性列之间的相似度。然后提出了构建原始数据分布图的算法,从而形式化地表达出属性列之间的关系。接着通过对原始数据分布图的分析与变换,得到演化数据分布图,更加准确地对原始数据进行聚类,从而探测出可能匹配的属性列,最终实现模式匹配。最后,本文在真实与模拟数据集上进行了大量的实验,实验结果证明了所提出的方法的可行性和有效性。本文提出的两种方法分别适用于具备完整模式信息与模式信息缺失的情况下,能够全面准确地解决模式匹配问题,可以满足实际应用的需求。