论文部分内容阅读
按照信息蕴藏的深度,Web分为Surface Web和Deep Web两大部分。其中,Surface Web是由超链接连接起来的静态网页,其内容能够为当前的通用搜索引擎索引和检索。而Deep Web是指访问在线数据库而动态生成的网页。随着信息化进程的推进和互联网技术的发展,Web中的在线数据库资源成指数级增长,访问Web数据库成为获取信息的主要来源。由于Deep Web具有隐藏性的特点和各个Deep Web站点存在质量上的差异,如何有效地利用Deep Web中的高质量数据成为信息检索领域面临的一大挑战。为此,本论文拟研究面向领域的高质量的Deep Web数据集成技术。本文的主要研究工作包括以下几点:(1)同一主题的Deep Web数据源的发现如何有效地发现Deep Web查询接口是Deep Web集成首先需要解决的问题,为此提出了基于顺序回归模型的Deep Web查询接口发现方法。首先,利用顺序回归的方法构造网页分类器,把主题相关的网页分为三个不同的层次,同时构造链接信息提取器,提取对应三个层次的链接。其次,把网页分类器分层结果作为链接信息提取器的反馈,揭示链接信息提取器提取的链接是否满足网页分类器的要求。最后,根据反馈爬虫自动提取满足要求的链接特征,并利用链接特征指导爬虫快速地找到各层有前途的链接。实验结果表明本文提出的爬行策略能够自动地提取有前途的链接的特征,筛选掉很多无关链接,提高了爬虫的速度和准确度。(2)均匀的数据抽样方法研究只有通过客观的数据样本才能真实反映数据源中数据的分布,进而准确的评估数据源的数据质量。为此提出了利用属性相关度的Deep Web数据抽样方法。首先,根据属性值的相关度构建抽样模板,并产生抽样查询把Web数据库划分成一组抽样块。在此基础上,对整个非均匀数据库的抽样就转化为均匀地抽取对各个块中的元组。最后,为了提高抽样效率和质量,采用了互信息的启发规则,引导基本抽样查询找到有效样本。实验表明该方法能够达到良好的抽样质量和抽样效率。(3)基于数据质量的数据源排序方法同一个主题的Deep Web数据源很多,但不是所有的数据源都拥有高质量的数据,比如有些数据源数据量很小或者含有很多错误数据。在查询时就需要为用户推荐高质量的数据源。相比传统的根据链接权威度的数据源排序方法,提出了基于数据质量的数据源排序方法。该方法以不同的质量评估标准,形成质量向量,进而对数据源的质量进行量化计算和估计。同时用抽取的样本计算每个质量标准的量化值,最后根据各个质量标准的量化值计算整个向量值。实验结果表明,利用抽样对数据源的数据质量进行评估,具有很好的准确性和可操作性。(4)无重复和完全的Deep Web数据提取方法研究为了能够有效地检索高质量Deep Web资源,在数据源排序的基础上,就需要提取高质量数据源中的结构化数据。为此,提出了一种全新的基于层次树的Deep Web数据获取方法,该方法可以无重复和完整的提取Web数据库中的数据记录。该方法首先把Web数据库模型化为一棵层次树,Deep Web数据获取问题就转化为树的遍历问题。其次,对树中的属性排序,缩小遍历空间;同时,利用基于属性值相关度的启发规则指导遍历过程,提高遍历效率。在本地模拟数据库和真实Web数据库上的大量实验证明,该方法可以达到很好的覆盖度和较高的提取效率。(5)结构化数据集成方法研究为了方便用户检索Deep Web数据,需要把不同数据源的结构化数据集成到本地数据库中。首先,这就涉及到属性和属性值的匹配,针对此,提出了基于属性语义的模式匹配方法。其次,为了准确和自动地提取结构化数据,提出了基于聚类的数据定位方法,并自动生成提取规则。最后,为了有效的去除重复记录,提出了基于关系运算的记录去重方法。这些技术对于有效筛选和检索高质量的Deep Web数据,充分利用互联网中的Deep Web资源,具有重要意义。