支持海量异构数据集成的模式匹配技术研究

来源 :东北大学 | 被引量 : 1次 | 上传用户:liongliong565
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络和信息技术的飞速发展,许多复杂庞大的异构数据集应运而生。为了有效利用这些异构数据,通常采用数据集成的方法,而模式匹配正是数据集成的核心技术。然而,许多数据集具有典型的异构性,并可能存在语义信息不明确、缺失数据、模式信息不全等问题,导致传统的模式匹配技术无法适用。针对上述问题,本文主要致力于模式信息完整与模式信息未知或者不全情况下的模式匹配技术的研究,分别提出了适用于不同情况下的模式匹配方法。对于具有完整模式信息的数据,本文提出采用一种基于语义信息和函数依赖的模式导向的模式匹配方法,该方法从分析模式元素的语义信息和结构信息两个角度出发,展开模式匹配过程。首先借助WordNet计算模式元素之间的语义相似度,并将其作为初步的筛选条件,得到待匹配元素的候选匹配集合。接着以函数依赖图的形式准确地描述模式的结构信息,考虑隔代依赖关系挖掘模式的深层结构信息,计算模式元素之间的结构相似度。最后通过分析语义相似度和结构相似度,动态自适应地生成概率因子,调节初步计算后的结果,从而最终筛选出属性元素之间全面合理的映射关系,实现模式信息完整的情况下灵活高效的模式匹配操作。对于由于数据库最初设计者文档的丢失或者失效、数据库的演化、访问权限受限等现实问题导致的模式信息丢失或者不全的情况,本文提出了一种基于信息论的数据驱动模式匹配方法。该方法完全基于数据本身的分布而不依赖于任何外部知识,首先借鉴已有的信息论概念定义了一种基于信息论的模型,更细粒度地描述数据集中各个属性列数据的分布特点和属性列之间的关联关系,从而计算出属性列之间的相似度。然后提出了构建原始数据分布图的算法,从而形式化地表达出属性列之间的关系。接着通过对原始数据分布图的分析与变换,得到演化数据分布图,更加准确地对原始数据进行聚类,从而探测出可能匹配的属性列,最终实现模式匹配。最后,本文在真实与模拟数据集上进行了大量的实验,实验结果证明了所提出的方法的可行性和有效性。本文提出的两种方法分别适用于具备完整模式信息与模式信息缺失的情况下,能够全面准确地解决模式匹配问题,可以满足实际应用的需求。
其他文献
据四川省卫生和计划生育监督执法总队消息,四川将开展2019年托幼机构、校外培训机构、学校采光照明"双随机"抽检工作。1托幼机构按照《托儿所、幼儿园建筑设计规范》(JGJ39-2
企业间的信息集成是实施敏捷制造的基础,而产品设计信息的集成与共享是实现企业集成的重要手段之一。文章提出了一种基于中性文件机制实现企业间产品设计信息交换的模式,建立了
目的:将“因病致贫”从绝对概念推广至相对概念,立足于“灾难性卫生支出”指标,探索“灾难性卫生支出”指标与“因病致贫”最佳匹配模式,最终提出符合我国国情的“灾难性卫生
《中国当代儿童文学散文十家》是中国当代最著名的儿童文学作家散文作品的集体亮相。十位作家,每人一本书,呈现中国当代儿童文学散文作品的最高水平。$$    《散文十家》篇
报纸
研究了MoO3修饰氧化石墨烯(GO)作为空穴注入层的影响。采用旋涂的方法制备了GO,再真空蒸镀修饰层MoO3,得到了空穴注入能力强和透过率高的复合薄膜。MoO3的厚分别采用0、3、5
目的通过对北京市医院睡眠监测报告(报告)结构和内容的分析,了解目前报告现状和存在问题,为今后制定规范的报告形式提供客观依据。方法对北京市10家医院190份报告内容分三部
电气工程简图应以国标GB/T4728为标准进行规范化,以增强其可读性及视觉效果.Microsoft Visio与Microsoft PowerPoint、Microsoft Word等软件具有良好的兼容性,但Visio中的一
近年来,随着畜牧养殖业的快速发展、社会生态环保意识的增强,畜牧养殖行业的污染问题也越来越受到人们的关注。因此,认真研究分析畜牧养殖行业污染成因,从而采取有针对性的综
目的:研制丹参酮ⅡA静脉乳剂,并对其进行质量评价。方法:以大豆磷脂与帕洛沙姆188为混合乳化剂,油酸为助乳化剂,甘油为等渗调节剂,高速剪切法制备初乳,再采用高压匀质机对初乳进行匀
在当前能源短缺的形势下,固体氧化物燃料电池以其高能量转化率及低污染等独特优势成为科研人员关注和研究的热点,作为其核心组件的电解质更是研究的重点。氧空位的存在是电解质