论文部分内容阅读
Deep Web中蕴含的信息数量与质量都要远远高于Surface Web,因此如何有效的获取Deep Web信息并加以集成备受人们关注。目前,国内外的许多研究者已经设计了一些典型的Deep Web数据集成系统框架,并对其中的一些相关技术如Deep Web数据源发现、Deep Web数据源分类、查询接口集成、Deep Web数据源选择及查询分解等进行了深入的研究,并取得了大量成果。Deep Web查询结果处理作为Deep Web数据集成系统中的一个核心功能,需要实时获取、标注并合并数量庞大的结果数据,其性能和效果将直接影响Deep Web数据集成系统。现有的查询结果处理工作在一定程度上实现了自动数据获取、数据标注和结果合并,然而仍存在一些问题,如语义标注性能问题、重复语义标注问题、数据异构与冲突处理问题、数据抽取性能问题、重复模式匹配问题等,这些问题严重影响Deep Web数据集成的性能和有效性。为实现具有高效准确的查询结果处理能力的Deep Web数据集成,本文从Deep Web数据源结果模式的定义出发,提出基于结果模式的Deep Web数据集成机制,对Deep Web数据源结果模式的生成方法、冲突的分类及结果模式冲突检测方法、基于结果模式的Deep Web数据抽取算法和结果输出模式的生成技术等查询结果处理技术进行了深入研究。(1)在分析了现有Deep Web数据集成系统的工作流程及存在不足的基础上,提出了基于结果模式的Deep Web数据集成方法。通过分析Deep Web结果数据的特点,给出了结果模式的定义,它兼顾Deep Web结果数据的语义特征和结构特征,为高效准确的查询结果处理奠定了理论基础。在此基础上,提出了基于结果模式的Deep Web数据集成机制,它以结果模式为核心,通过检测并建立领域内各个Deep Web数据源结果模式间的冲突记录,从而实现实时准确地建立与用户查询请求相对应的结果输出模式,为统一各数据源返回的查询结果奠定基础。结果模式及结果模式间的冲突记录一旦建立,便可在查询结果处理阶段重复使用,从而为高效准确的查询结果处理提供了有效支撑。(2)针对语义标注性能与重复语义标注问题,本文研究了支持高效语义标注的结果模式生成方法。针对结果模式结构特征,提出了基于网页数据特征矩阵的结果模式结构生成方法,根据Deep Web数据源中数据组织特点,给出了网页数据特征矩阵的定义,进而通过构建与分析网页数据特征矩阵来生成结果模式结构特征,为同类结果页面中属性值的获取奠定了基础。针对结果模式语义特征,根据结果模式可以通过对大量样本数据的离线分析来获取这一特点,提出了基于CPN网络的结果模式语义标注方法。给出了有效描述结果数据的基本特征,采用CPN网络学习出数据特征与数据语义之间的关系,语义标注规则一旦建立,便可实时、快速、准确地标注同类结果页面中的属性值,从而有效提高了语义标注性能。(3)针对Deep Web数据源的高度自治性所导致的数据源间的异构问题,本文给出了数据源间冲突的分类及结果模式冲突检测方法。通过分析Deep Web查询接口和结果数据的特点,系统地阐述了Deep Web数据源间可能存在的冲突,并就每一种冲突给出了明确的冲突描述及相应的解决策略。在此基础上,给出了同一领域中结果模式间的冲突检测算法,从而获得结果模式间冲突记录,为进一步的结果输出模式生成和查询结果规范化奠定了良好基础。(4)针对多数Deep Web数据抽取方法无法支持数据语义的获取及嵌套属性的处理,考虑到结果模式的结构特征可以有效地支持待抽取结果页面中属性值的获取,结果模式的语义特征可以有效地支持属性值的语义标注,因此本文提出了基于结果模式的Deep Web数据抽取方法,给出了基于结果模式的Deep Web数据抽取算法,有效地提高了Deep Web数据抽取的性能。(5)针对不同的用户查询请求可能涉及相同的Deep Web数据源所导致的重复模式匹配问题,在结果模式及结果模式间冲突记录的基础上,本文给出了针对不同用户查询请求实时生成相应的结果输出模式的方法。针对结果模式冲突检测阶段检测出的两两数据源间的冲突记录及冲突解决规则,给出了在用户查询请求所涉及的多数据源上的冲突整合规则,在此基础上给出了结果输出模式生成流程和算法,从而达到高效准确地构建满足用户需求的结果输出模式的目的。