论文部分内容阅读
随着互联网技术及其相关技术的迅猛发展,Web已经逐渐成为最主要的信息来源。有效地获取并集成Web数据,能够为数据的分析挖掘提供强有力的帮助,具有十分重要的应用价值和意义。但是仅通过手工的方式对这些信息进行集成,在实际当中是一件非常困难的事情,难以有效利用Web信息。因此,Web数据自动化集成技术成为研究热点。Web数据自动抽取即是Web数据集成自动化中的关键问题之一。Web数据抽取包含了Web数据的提取和语义标注。Web数据抽取就是从Web页面中识别并提取出用户感兴趣的信息,然后对这些信息进行处理,形成更为结构化且语义清晰,能被计算机理解处理的数据。按照获取信息在Web的深度,可将Web划分为Surface Web和Deep Web。目前,Deep Web的信息量已经远远超过了Surface Web,数据质量也比SurfaceWeb高,具有更高的应用价值。本论文以Deep Web数据集成系统为目标应用,面向Deep Web中异构的海量数据,针对Deep Web数据集成中的若干关键问题,所提出的创新性的工作主要包括以下两个方面。(1)基于字符串模式匹配的页面模板生成方法每个Deep Web站点都会根据自己网站的主题,采用不同的布局风格设计页面结构,展示页面数据,不同站点的网页设计各异。因此,从不同的数据源抽取数据,就需要一些有效的工具,提供相应的服务。目前主要是通过编写包装器,从HTML页面上抽取数据。在许多抽取包装器的研究中,构造Web站点的页面模板都是研究开始必须解决的一个关键问题。现有的页面模板生成方法难以处理复杂的页面结构,影响了页面模板的准确性和可靠性。本文提出了一个新颖有效的方法能够自动的构造Web站点的页面模板。该方法是基于字符串模式匹配自动搜寻Web页面中的嵌套结构和重复结构,能够处理复杂页面,从而构造Web站点的页面模板。(2)基于页面视觉特征的Web数据语义标注方法现有的Web数据语义标注方法,多从数据本身出发,围绕数据项语义特征,模式特征以及数据项之间的逻辑关系,来分析数据的语义。在很多情况下,仅通过分析数据的语义特征,模式特征等,难以准确标注两个位置邻近,且语义特征或模式特征十分类似的数据项。本文提出了一种基于页面视觉特征约束条件随机场的Web数据标注方法,通过引入Web页面视觉特征作为条件随机场标注模型的约束条件提高语义标注的性能。首先,在对同类Web页面进行数据抽取过程中,可以容易地获得数据的页面视觉特征,从而生成每条数据记录对应的页面视觉特征序列。通过分析一部分样本数据的页面视觉特征序列,可以获得该类页面每种语义数据项的公共视觉特征,以此征构建每个语义数据项对应的页面视觉特征约束条件。然后,将所构建的约束条件引入传统条件随机场模型中,建构页面视觉特征约束条件随机场模型,对Web数据进行语义标注。通过在标注模型中引入数据的页面视觉特征,能够准确标注两个位置邻近,且语义特征或模式特征十分类似的数据项,有效地提高了Web语义标注的准确性。