Deep Web集成系统中同类主题数据源选择方法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:zty85633278
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
使用Deep Web集成系统获取隐藏在数据库中的高质量数据成为人们获取信息的重要途径之一。由于Deep Web集成系统查询信息时需从Web上海量的数据源获取信息,因而系统获取信息所花费的代价随Web上数据源的增加而增加,同时这些数据源质量参差不齐,存在不能高效地为用户从数据源中获取高质量数据的不足。在研究利用数据源质量指标来选择高质量数据源的基础上,本文提出了同类主题的Deep Web数据源选择方法,该方法通过数据源差异性分析可有效判断出新数据源的内容与集成系统中已有内容的重复度,在此基础上利用表示数据源质量特征的准确性、时序性、权威性和数据源大小等质量指标从不同角度来评估数据源的质量。本文主要工作包括:①对Deep Web技术的研究背景、国内外研究现状、实际应用意义、领域知识和Deep Web集成框架相关技术进行了阐述和分析。②运用改进的数据源重复度估算方法获取三个及以上同类主题数据源的重复度。首先为数据源中的记录选择关键属性集合,然后采用编辑距离方法实现单个数据源中的记录与集成系统中同类数据源的记录在对应属性上进行值的比较,最后使用FR(Frequent Records)方法获取单个数据源与集成系统中同类数据源集的内容重复度,改善了传统方法只研究两个同类主题数据源的重复度的不足。③在查询结果集中,改进了记录相关性判别方法。通过探测查询等方式获取同类主题数据源查询结果集中重复记录出现的频率,若该频率超过给定阈值,则记录与查询相关。该方法能随阈值地变化而获取不同数量的相关性记录,并且消除了传统的记录相关性判别方法受查询接口属性类型限制的影响。④针对当前Deep Web数据源质量评估时存在客观真实性差和准确性低等不足,本文采用准确性、时序性、数据源大小、权威性这4个质量指标,建立数据源质量估计模型来获得Deep Web数据源的质量,从而为用户查询选择质量最高的N个Deep Web数据源。在主流图书类网站上的实验结果表明,本文所提方法不仅可以减少系统的负担,也能有效地为同类主题数据源进行质量评估,从而获取质量较高的同类数据源。
其他文献
二维不规则带排样问题(two-dimensional irregular strip packing problem),又称为下料问题(nesting problem),它在工业生产中有着广泛的应用,其典型应用如服装制造、钢铁切
岸基对海视频监视系统是针对海空背景条件下对舰船、飞机等目标的检测和识别、分类需求,通过分析典型海空背景图像的统计特性,研究图像预处理和背景抑制技术,突破海上和低空
随着数字电视以及互联网的普及与发展,数字多媒体内容的传播变得越来越方便快捷,但相应的知识产权的保护却相对滞后,近几年数字电视内容的非法复制越来越严重。据国际知识产权联
现有因特网IP级拓扑测量方法受到各种网络设施不同程度的影响,削弱了原有方法的测量效果,限制了测量空间。本文首先综述了因特网IP级拓扑测量国内外相关研究现状,接着介绍了
生物特征识别技术是一种利用人体自身的生理特征或者行为特征来进行身份认证的技术,近年来,生物特征识别技术在国防、金融和个人信息安全方面得到了广泛的应用。常见的人体生物
Petri网的死锁问题一直是Petri网研究的重要课题。死锁是柔性制造系统控制器设计时必须要考虑和解决的问题。对一个Petri网模型而言,找到死锁标识,并且利用一定的方法对含有死
随着分布式技术的逐步成熟以及单机遗留系统已不能满足日益增加的需求,许多大型单机遗留系统需要通过再工程方法改造成基于分布式架构的系统。但由于设计陈旧、业务逻辑复杂
当前市场主流处理器的发展趋势是多核化/众核化,即通过提高处理器核心数目保持计算性能的持续增长。最新的图形处理器已经能够提高兆级的FLOPS理论峰值,远远超出了市场主流多
随着信息技术广泛应用,用户产生的各种信息越来越多,而数据库作为存储用户数据的场所,存储了大量和用户隐私相关的数据。传统的访问控制因为模型本身存在的弊端,可能导致用户