基于查询能力的Deep Web数据库选择研究

来源 :江苏大学 | 被引量 : 0次 | 上传用户:sk_chin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了有效利用Deep Web中丰富的信息,当前的许多研究多集中于对Deep Web数据集成中子问题的研究。而在这些子问题中,Web数据库选择是影响Deep Web数据集成质量的重要因素之一。对于Web数据选择,一方面应提高召回率和准确率,另一方面,还应降低代价。但已有的方法大多无法同时满足这两项要求。为解决这个问题,本文分别对后台数据库和查询接口的特征进行了研究,提出了可满足以上要求的两种Web数据库选择方法。一种为基于主题分布的Web数据库选择方法,另一种为基于综合查询能力的Web数据库选择方法。本文的主要研究内容如下:   (1)在基于主题分布的Web数据库选择方法中,首先对Web数据库的后台数据库内容的主题层次特征进行了研究,并利用目录集成技术实现对Web数据库主题层次的集成。其次为获取Web数据库主题分布,研究了使用查询探测获取Web数据库主题分布的方法。再次对查询主题进行了研究,并提出了获取查询主题的一般方法。最后利用查询主题下主题分布实现了Web数据库的选择。   (2)在基于综合查询能力的Web数据库选择方法中,首先对Web数据库的查询接口模式的建模方法进行了研究,即在已有的查询接口模式模型的基础上,建立了可反映查询接口查询能力特征的三层模式模型。其次研究了获取各层模式特征的方法,并提出了获取原子查询集、属性能力表、查询接口种类等特征的方法。然后研究了利用查询接口的模式特征计算查询接口查询能力的算法和利用后台数据库内容特征(Web数据库的主题分布)计算后台数据库查询能力的算法。最后利用这两项查询能力实现了Web数据库的选择。   (3)为评估这两种方法的性能,提出了返回比和准确比的概念,并分别利用返回比、准确比评估Web数据库选择的召回率、准确率。同时基于Web数据库选择的实验结果对这两项指标的有效性进行了证明。   最后,对两种方法进行了实验评估。实验结果表明,基于主题分布的Web数据库选择能够在降低Web数据库选择代价的前提下,提高召回率;基于综合查询能力的’Web数据库选择方法可在不显著降低召回率的情况下,提高准确率。
其他文献
农业机械化是现代农业的重要基础。在我国,农机作业服务十分普遍,但由于农机作业受价格、天气、面积、距离、路况、作业能力等诸多因素影响,仍然存在着作业地点盲目选择、作业成
作者识别是一个应用广泛的研究领域,可以应用于中外文学作品的作者考证领域,也可以应用于版权保护、恶意邮件识别等信息安全领域。对于近年来在文学创作、论文写作等学术领域
随着国家大力推进互联网、广播电视网、移动网的三网融合,有越来越多的视频数据需要畅游于三网之间。然而,三网间网络带宽、播放设备以及播放软件各不相同,因此需要对视频进行转
随着计算机和网络的普及,我们能方便获取我们关心的所有信息,在很多领域,都存在这些急速增长的以不同形式存在的数据,仅靠人们对数据库的查询或检索得出的数据往往不能得出我们所
三维虚拟人动画涉及到诸多领域,如心理学、人工智能和图形学等,并且虚拟人动画也具有广阔的应用前景。与虚拟人的交互是一个比较有趣也比较有前景的课题,因此吸引了众多人体
目前,随着高校网络环境的改善,图书馆自动化条件的不断优化,很多高校图书馆都已经或正在着手特色数据库的建设工作。其中,学生毕业论文库的建设也是图书馆的一项重要工作。学
人脸检测是指对输入图像或视频序列进行检测,以确定其是否包含人脸,并对包含人脸的数据提取其大小、形状、姿态和位置等信息的过程。人脸检测技术是机器视觉、模式识别和人工智
在过去,传统的奈奎斯特采样定理一直统治着信号处理领域。随着人们对信息需求量的日益增加,信号的带宽越来越宽,在信息获取中对采样速率和处理速度等的要求也越来越高,这无疑
学位
图形处理器(GPU)具有很强的并行处理能力,并且计算成本低,利用GPU加速字符串操作已经成为了当前并行计算领域的研究热点。近似字符串匹配技术在病毒检测、文件检索、计算生物学等