论文部分内容阅读
随着Internet技术的飞速发展和网络中所含信息规模的不断扩大,存在越来越多以Web查询接口形式进行访问的Deep Web (简称Web数据库或WDB)资源。而信息检索作为互联网应用的重要组成部分,在网络环境下,随着对信息检索研究的不断深入,研究Deep Web数据集成系统受到越来越多的研究者的密切关注。通过最近的研究发现, Deep Web蕴含了大量有价值的数据信息,这些数据资源与市场的需求密切相关,为了能自动的、有效的获取Deep Web背后众多Web数据库信息资源,需要进行大量的WDB数据集成。WDB页面大多是带模板的结构化HTML文档,而HTML语言的特点是在Web上人们可以随意发布内容多种多样,形式不同的内容,这样使得Web上的内容处于杂乱无序的状态,对建立Web数据库集成系统造成了很大的困难。语义标注作为Deep Web数据集成系统中查询结果处理模块中一个非常重要的组成部分,它的主要工作是指对抽取出的Deep Web查询结果数据添加正确的语义信息,使这些数据具有更高的使用价值,同时能被计算机识别和处理。本文首先介绍了研究Deep Web的研究背景和相关知识;其次,对模式获取技术和Deep Web数据标注技术进行了深入的研究,并提出了相应的方法和模型结构图;最后,使用结果模式信息对WDB数据进行有效标注,其主要研究工作包括:1.针对Deep Web结果模式结构信息的丢失问题,提出了一种基于启发式信息的Deep Web结果模式获取方法。通过解析Deep Web结果页面数据,利用启发式信息为结果页面数据添加正确的属性名,进而得到对应Deep Web的结果模式,并对其进行规范化处理解决不同数据源结果模式的结构不一致问题。实验验证该方法可以有效地获取Deep Web的结果模式信息。2.通过对比不同的WDB语义标注方法的优缺点,针对已有的标注方法还不能较好的解决Deep Web查询结果数据的标注问题,提出一种基于结果模式的Deep Web数据标注方法。通过结果页面解析和抽取结构化数据来完成数据预处理的工作,并在集成结果模式和待标注数据之间建立正确的语义映射,进而确定Deep Web数据的标注信息。实验结果表明,该标注方法对查询结果数据具有较好的标注效果。