论文部分内容阅读
随着互联网的高速发展,网上数据量也呈指数级增长,Web已经成为一个非常巨大的数据源。为了高效地利用Web上有效信息,研究者们提出了Web数据集成的概念。Web数据集成就是把分散在Web上各个站点的各种数据信息按照一定的联系有机地组织到一起,挖掘数据中包含的深层信息,以满足人们对集成数据的后续使用。由于Internet上数据的新特点,动态性、多样性、半结构化和非结构化等,使得从Internet上准确快速的集成有价值信息并为市场情报分析提供有价值数据成为了一个巨大的挑战。其中实体统一是Web信息集成框架中最关键问题之一。由于拼写错误,缩写等原因,导致数据抽取和模式匹配之后的数据集合中可能存在大量的相同表象指向不同实体或者不同表象指向同一实体的问题,这个问题大大影响了数据质量。为了避免“进去的是垃圾,出来的也是垃圾(garbage in, garbage out)",我们必须尽力提高数据质量。集成后的数据质量的好坏直接影响到Web数据集成后提供给用户的服务质量,因此,实体统一技术是Web信息集成中必须研究的问题。针对不同领域及其小同需求,Web上数据经过数据抽取和模式匹配,存储到数据库中之后,待统一实体可能面临两种情况:一是单一类型实体,这种情况实体统一要解决的是单一类型实体表象之间的识别问题,主要从减少表象比较次数方面考虑;二是多类型实体,这种实体统一要对数据库中所有类型实体都要进行识别,此时需要解决的问题是如何统一多类型实体的问题,使得实体统一结果之间互相促进,以达到比单独统一每种类型实体更好的结果。本文的主要工作包括:1)针对单类型实体的实体统一提出了一种高效的解决方案。首先提出了一种Blocking方法,将待统一的表象划分为两类,一是可能指向相同现实实体的不同表象,二是可能指向不同现实实体的相同表象。对两种表象分别采用两种不同的算法进行统一,在统一的过程中,两类实体统一之间又会相互促进,进而大大提高实体统一的效率和准确性。2)针对多类型实体的实体统一提出了一种新颖的解决方案,首先确定实体统一的实体类型集合,然后确定记录类型实体及其属性类型实体,并将不同实体的表象整合到若干数据集合中,并应用递进的完善的记录级别相似度,使得实体统一结果之间相互促进,从而达到比单独统一每种类型实体更好的效果。