基于数据源依赖关系的信息评价方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:ylali001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
每一个网站(又称为数据源)都会提供一些数据值集合,用来反映事实信息,例如一个网上书店,它会提供很多书的信息,包括作者、书名、出版社和书的价格等。那么这些数据值就对应着一个集合,然而,事实和真相之间没有直接的关系。“事实”确实存在,也有可能不存在。而“真相”一定存在并且存在于“事实”的背后,“事实”是可以迷惑人的。不同的数据源通常会提供一些相互冲突的数据值,哪些值才是最可靠的值呢,为了提供给用户高质量的数据值,关键是数据集成系统能够解决数据冲突问题,并能够提取出正确的数据值。通常我们认为正确的数据值会被多数的数据源提供,而提供错误数据值的数据源相对是少的。依据这一观点,我们利用选票算法,把被最多的数据源提供的数据值作为正确的数据值,但是一个数据源提供的值无论正确与否,都会被很多其它的数据源复制。在这样一个数据信息化时代,提取准确的数据就变的很棘手。因此真值发现问题受到了日益广泛的关注。本文给出了实现数据源分类,数据冲突处理的具体实现策略,详细描述了捕获数据源提供的数据值的变化特征,辨别数据源的类型,以及观察数据值之间的相似性关系等一系列逻辑结构,来准确的查找特定对象的可靠数据值。
其他文献
近年来,伴随着社交网络、移动互联网和物联网等技术领域的迅猛发展,数据量呈现爆炸式的增长。在这些领域中,通常需要实时地、高效地处理快速变化的海量数据。目前,针对数据流的实
随着计算机视觉传感器技术的快速发展,计算机视觉开始渗透到医学、城市交通、视频监控、机器人视觉等领域。传统窄视角的普通摄像头已经不能满足场景信息宏观层次的分析需求,而
现实生活中的很多决策问题都要考虑同时优化若干个目标,而这些目标之间往往是彼此冲突的,多目标优化算法就是要从所有可能的方案中找到最合理、最可靠的解决方案。其主要面临
数据库自然语言查询界面(NLIDBs)是指允许用户用自然语言访问数据库的一种方式,它的出现大大简化了人机交互的过程。它是多学科交叉的产物,涉及自然语言理解、数据库技术、人工智
信息检索系统中最核心的数据结构是倒排索引。随着信息化水平的不断提高,索引数据也越来越庞大,必须保存在辅助存储器中。目前常用的辅存设备是磁盘,磁盘虽然具有容量大、便宜等
数据重要性越来越受到企业和用户的关注,系统可靠性也是企业在选购存储设备时首要考虑的因素。RAID(Redundant Array of Independent Disk独立冗余磁盘阵列)存储系统的可靠性可
随着计算机的广泛使用与网络技术的深入发展,人们更多的将各种资料信息以电子文本的形式存储于计算机及网络空间中。这些文本信息的大规模增长,导致人们对信息的过滤、筛选出
办公自动化系统是利用计算机技术提高办公的效率,进而实现办公自动化处理的系统。它采用互联网技术,基于工作流的定义,使企业内部人员方便快捷地实现信息的共享,高效地协同工
无线通信技术和嵌入式技术的发展极大带动了灵巧对象(Smart Things)的发展和应用。由于灵巧对象体积小、能耗少,具有一定的通信和计算能力,能够组网,成为物联网的一部分,其应用越来