论文部分内容阅读
为了有效利用Deep Web中丰富的信息,当前的许多研究多集中于对Deep Web数据集成中子问题的研究。而在这些子问题中,Web数据库选择是影响Deep Web数据集成质量的重要因素之一。对于Web数据选择,一方面应提高召回率和准确率,另一方面,还应降低代价。但已有的方法大多无法同时满足这两项要求。为解决这个问题,本文分别对后台数据库和查询接口的特征进行了研究,提出了可满足以上要求的两种Web数据库选择方法。一种为基于主题分布的Web数据库选择方法,另一种为基于综合查询能力的Web数据库选择方法。本文的主要研究内容如下:
(1)在基于主题分布的Web数据库选择方法中,首先对Web数据库的后台数据库内容的主题层次特征进行了研究,并利用目录集成技术实现对Web数据库主题层次的集成。其次为获取Web数据库主题分布,研究了使用查询探测获取Web数据库主题分布的方法。再次对查询主题进行了研究,并提出了获取查询主题的一般方法。最后利用查询主题下主题分布实现了Web数据库的选择。
(2)在基于综合查询能力的Web数据库选择方法中,首先对Web数据库的查询接口模式的建模方法进行了研究,即在已有的查询接口模式模型的基础上,建立了可反映查询接口查询能力特征的三层模式模型。其次研究了获取各层模式特征的方法,并提出了获取原子查询集、属性能力表、查询接口种类等特征的方法。然后研究了利用查询接口的模式特征计算查询接口查询能力的算法和利用后台数据库内容特征(Web数据库的主题分布)计算后台数据库查询能力的算法。最后利用这两项查询能力实现了Web数据库的选择。
(3)为评估这两种方法的性能,提出了返回比和准确比的概念,并分别利用返回比、准确比评估Web数据库选择的召回率、准确率。同时基于Web数据库选择的实验结果对这两项指标的有效性进行了证明。
最后,对两种方法进行了实验评估。实验结果表明,基于主题分布的Web数据库选择能够在降低Web数据库选择代价的前提下,提高召回率;基于综合查询能力的’Web数据库选择方法可在不显著降低召回率的情况下,提高准确率。