Web数据集成中实体统一问题研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:lostbridge
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,网上数据量也呈指数级增长,Web已经成为一个非常巨大的数据源。为了高效地利用Web上有效信息,研究者们提出了Web数据集成的概念。Web数据集成就是把分散在Web上各个站点的各种数据信息按照一定的联系有机地组织到一起,挖掘数据中包含的深层信息,以满足人们对集成数据的后续使用。由于Internet上数据的新特点,动态性、多样性、半结构化和非结构化等,使得从Internet上准确快速的集成有价值信息并为市场情报分析提供有价值数据成为了一个巨大的挑战。其中实体统一是Web信息集成框架中最关键问题之一。由于拼写错误,缩写等原因,导致数据抽取和模式匹配之后的数据集合中可能存在大量的相同表象指向不同实体或者不同表象指向同一实体的问题,这个问题大大影响了数据质量。为了避免“进去的是垃圾,出来的也是垃圾(garbage in, garbage out)",我们必须尽力提高数据质量。集成后的数据质量的好坏直接影响到Web数据集成后提供给用户的服务质量,因此,实体统一技术是Web信息集成中必须研究的问题。针对不同领域及其小同需求,Web上数据经过数据抽取和模式匹配,存储到数据库中之后,待统一实体可能面临两种情况:一是单一类型实体,这种情况实体统一要解决的是单一类型实体表象之间的识别问题,主要从减少表象比较次数方面考虑;二是多类型实体,这种实体统一要对数据库中所有类型实体都要进行识别,此时需要解决的问题是如何统一多类型实体的问题,使得实体统一结果之间互相促进,以达到比单独统一每种类型实体更好的结果。本文的主要工作包括:1)针对单类型实体的实体统一提出了一种高效的解决方案。首先提出了一种Blocking方法,将待统一的表象划分为两类,一是可能指向相同现实实体的不同表象,二是可能指向不同现实实体的相同表象。对两种表象分别采用两种不同的算法进行统一,在统一的过程中,两类实体统一之间又会相互促进,进而大大提高实体统一的效率和准确性。2)针对多类型实体的实体统一提出了一种新颖的解决方案,首先确定实体统一的实体类型集合,然后确定记录类型实体及其属性类型实体,并将不同实体的表象整合到若干数据集合中,并应用递进的完善的记录级别相似度,使得实体统一结果之间相互促进,从而达到比单独统一每种类型实体更好的效果。
其他文献
近年来,社交网站蓬勃发展并成为当今社会的一个热点。尽管这些网站给用户提供了一系列吸引人的特征,但是遗憾的是,它们倾向于暴露用户的隐私。在本论文中,为了解决社交网络中
移动对象数据库技术是计算机科学的新兴研究领域,主要用来管理随时间连续变化的移动对象,有着广泛的应用需求。随着计算机网络、无线定位等技术的快速发展,移动信息服务越来
表格识别是当前图像识别领域中的一个重要研究课题,由于信息化的普及和表格数据的大量出现,表单数据自动处理技术已经在很多行业和领域中取得应用。表格图像识别技术不仅可以
随着人类基因组计划的实施和基因组测序技术的快速发展,生物学家已得到几百种生物的全基因组序列,这些序列的背后隐藏着丰富的生物学知识和生物学规律。基因组序列测定之后,识别
科技的不断创新,也受惠于监控领域,使视频监控技术得到快速发展。安防行业的快速发展促进了智能监控系统的发展,其也成为模式识别与图形处理交叉领域中的热点之一。从摄像头的监
随着无线传感器网络(Wireless Sensor Network, WSN)应用的日益深入,海量数据的产生在WSN环境中也将变得越来越普遍。但是传统的如简单的数据查询等数据处理方式,不仅无法满
伴随着通信技术的不断发展和视频处理技术的日新月异,数字视频的应用范围越来越广泛。由于原始视频数据量比较大,因此很难全部在硬盘中进行储存或者在网络上进行传输。然而,
迁移工作流是近年来工作流研究的新方向,是一种基于移动agent计算的工作流管理新模式。迁移工作流引擎、迁移实例(migrating instance,mi)和工作位置是组成迁移工作流系统的
近年来,迁移工作流(Migrating Workflow)成为了工作流管理研究的一个新方向。基于移动计算的迁移工作流包含三个要素:工作流引擎、工作位置和迁移实例。工作流引擎定义工作流
动作数据是进行三维角色动画制作的重要元素,通过动作捕捉设备获得的人体动作数据比传统的关键帧技术生成的角色动作具有更好的视觉真实性。目前,人体动作捕获数据已经被广泛应