论文部分内容阅读
每一个网站(又称为数据源)都会提供一些数据值集合,用来反映事实信息,例如一个网上书店,它会提供很多书的信息,包括作者、书名、出版社和书的价格等。那么这些数据值就对应着一个集合,然而,事实和真相之间没有直接的关系。“事实”确实存在,也有可能不存在。而“真相”一定存在并且存在于“事实”的背后,“事实”是可以迷惑人的。不同的数据源通常会提供一些相互冲突的数据值,哪些值才是最可靠的值呢,为了提供给用户高质量的数据值,关键是数据集成系统能够解决数据冲突问题,并能够提取出正确的数据值。通常我们认为正确的数据值会被多数的数据源提供,而提供错误数据值的数据源相对是少的。依据这一观点,我们利用选票算法,把被最多的数据源提供的数据值作为正确的数据值,但是一个数据源提供的值无论正确与否,都会被很多其它的数据源复制。在这样一个数据信息化时代,提取准确的数据就变的很棘手。因此真值发现问题受到了日益广泛的关注。本文给出了实现数据源分类,数据冲突处理的具体实现策略,详细描述了捕获数据源提供的数据值的变化特征,辨别数据源的类型,以及观察数据值之间的相似性关系等一系列逻辑结构,来准确的查找特定对象的可靠数据值。