基于结果模式的Deep Web数据集成关键技术研究

来源 :东北大学 | 被引量 : 1次 | 上传用户:liongliong526
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Deep Web中蕴含的信息数量与质量都要远远高于Surface Web,因此如何有效的获取Deep Web信息并加以集成备受人们关注。目前,国内外的许多研究者已经设计了一些典型的Deep Web数据集成系统框架,并对其中的一些相关技术如Deep Web数据源发现、Deep Web数据源分类、查询接口集成、Deep Web数据源选择及查询分解等进行了深入的研究,并取得了大量成果。Deep Web查询结果处理作为Deep Web数据集成系统中的一个核心功能,需要实时获取、标注并合并数量庞大的结果数据,其性能和效果将直接影响Deep Web数据集成系统。现有的查询结果处理工作在一定程度上实现了自动数据获取、数据标注和结果合并,然而仍存在一些问题,如语义标注性能问题、重复语义标注问题、数据异构与冲突处理问题、数据抽取性能问题、重复模式匹配问题等,这些问题严重影响Deep Web数据集成的性能和有效性。为实现具有高效准确的查询结果处理能力的Deep Web数据集成,本文从Deep Web数据源结果模式的定义出发,提出基于结果模式的Deep Web数据集成机制,对Deep Web数据源结果模式的生成方法、冲突的分类及结果模式冲突检测方法、基于结果模式的Deep Web数据抽取算法和结果输出模式的生成技术等查询结果处理技术进行了深入研究。(1)在分析了现有Deep Web数据集成系统的工作流程及存在不足的基础上,提出了基于结果模式的Deep Web数据集成方法。通过分析Deep Web结果数据的特点,给出了结果模式的定义,它兼顾Deep Web结果数据的语义特征和结构特征,为高效准确的查询结果处理奠定了理论基础。在此基础上,提出了基于结果模式的Deep Web数据集成机制,它以结果模式为核心,通过检测并建立领域内各个Deep Web数据源结果模式间的冲突记录,从而实现实时准确地建立与用户查询请求相对应的结果输出模式,为统一各数据源返回的查询结果奠定基础。结果模式及结果模式间的冲突记录一旦建立,便可在查询结果处理阶段重复使用,从而为高效准确的查询结果处理提供了有效支撑。(2)针对语义标注性能与重复语义标注问题,本文研究了支持高效语义标注的结果模式生成方法。针对结果模式结构特征,提出了基于网页数据特征矩阵的结果模式结构生成方法,根据Deep Web数据源中数据组织特点,给出了网页数据特征矩阵的定义,进而通过构建与分析网页数据特征矩阵来生成结果模式结构特征,为同类结果页面中属性值的获取奠定了基础。针对结果模式语义特征,根据结果模式可以通过对大量样本数据的离线分析来获取这一特点,提出了基于CPN网络的结果模式语义标注方法。给出了有效描述结果数据的基本特征,采用CPN网络学习出数据特征与数据语义之间的关系,语义标注规则一旦建立,便可实时、快速、准确地标注同类结果页面中的属性值,从而有效提高了语义标注性能。(3)针对Deep Web数据源的高度自治性所导致的数据源间的异构问题,本文给出了数据源间冲突的分类及结果模式冲突检测方法。通过分析Deep Web查询接口和结果数据的特点,系统地阐述了Deep Web数据源间可能存在的冲突,并就每一种冲突给出了明确的冲突描述及相应的解决策略。在此基础上,给出了同一领域中结果模式间的冲突检测算法,从而获得结果模式间冲突记录,为进一步的结果输出模式生成和查询结果规范化奠定了良好基础。(4)针对多数Deep Web数据抽取方法无法支持数据语义的获取及嵌套属性的处理,考虑到结果模式的结构特征可以有效地支持待抽取结果页面中属性值的获取,结果模式的语义特征可以有效地支持属性值的语义标注,因此本文提出了基于结果模式的Deep Web数据抽取方法,给出了基于结果模式的Deep Web数据抽取算法,有效地提高了Deep Web数据抽取的性能。(5)针对不同的用户查询请求可能涉及相同的Deep Web数据源所导致的重复模式匹配问题,在结果模式及结果模式间冲突记录的基础上,本文给出了针对不同用户查询请求实时生成相应的结果输出模式的方法。针对结果模式冲突检测阶段检测出的两两数据源间的冲突记录及冲突解决规则,给出了在用户查询请求所涉及的多数据源上的冲突整合规则,在此基础上给出了结果输出模式生成流程和算法,从而达到高效准确地构建满足用户需求的结果输出模式的目的。
其他文献
近年来,云计算以其所具有的弹性的服务组合方式、低碳化的能源消耗和集成化的服务模式等特性,受到国内外学者和企业的关注与青睐。云服务资源分布式的存储结构和组合式的服务
目前Internet主干网络带宽呈指数性增长,网络带宽的急剧增长要求网络设备具有极高的包处理能力,同时网络协议的多样性和不断更新又要求网络设备具有极大的灵活性,网络设备对
接入网和互联网应用的很多特性均会受到互联网用户的宏观行为特性的影响,而互联网的发展使得互联网用户的宏观行为特性发生了一系列变化。流量识别是被动网络测量和流量管理
西掖指中书省,具体指省内的中书舍人院,方位在大明宫中轴线以西,唐后期亦指翰林学士院,其中西学士院位于翰林院以南,东学士院位于金銮殿以西;大明宫西院则指枢密院,位于中书
<正>对于英语教学来说,英语早读是一种必不可少的补充以及延伸,通过早读环节教师能够对学生在朗读环节中的语调以及语音进行及时的发现,对学生在英语语法以及课文方面的理解
网络安全态势是一组经过量化的数值,它可以反映网络系统宏观的安全状态。网络安全态势感知包括:安全要素的提取与识别,安全态势的评估以及安全态势的预测三方面内容。通过网络
在全省11个地市级墙办负责人中,杨卫平是唯一一位女同志.无论上级、同仁、下属均称她"小杨",不冠头衔,不呼芳名,很是亲切.