Web数据集成中全局模式构建方法研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:sevenzzzz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机及互联网技术的快速发展,Web上的信息量也随之急剧的增长,使得Web成为巨大的分布广泛的数据源。随着各行业对信息的需求越来越高,而有效的整合Web上的海量的异构的数据是一件困难的事情,因而人们提出Web数据集成技术。Web数据集成系统能够将来自多个数据源的数据通过数据抽取、实体统一等过程形成结构统一、表意明确的数据,能够为用户的情报分析、商业决策等应用提供支持。在Web数据集成中,Web页面中的Web数据对象称之为Web实体实例,来自不同数据源的Web实体实例信息在模式上存在着诸多的差异:一方面,对于相同类型的Web实体,不同的Web实体实例通常包含不同的实体属性;另一方面,对于同一实体属性,不同的Web实体实例通常使用不同的属性标签。而且由于Web实体的动态性特点,包含新的属性的Web实体实例及包含新的属性标签的Web实体实例不断的出现在Web页面中。Web实体实例在模式上的诸多差异为数据的整合带来困难。为了消除各Web实体实例间的模式差异,为所有数据提供统一的、规范的模式,需要为Web数据集成系统中所有的Web实体实例构建一个全局模式。本文主要研究Web数据集成中Web实体全局模式的构建方法,主要工作包括下面几个方面:(1)基于Web实体实例在页面中的展示特征及Web数据集成系统中已有的Web实体全局模式信息,本文提出一种基于SVM的Web页面主数据区域识别方法,该方法能够有效的将半结构化及非结构化页面进行数据区域分割并识别出Web实体实例所在的主数据区域,为Web实体属性信息的抽取提供辅助支持。(2)基于Web实体属性标签的特征及Web数据集成系统中已有的Web实体全局模式信息,本文提出一种基于AdaBoost的集成学习方法来从页面的主数据区域自动的抽取Web实体的属性信息,为Web实体全局模式构建提供Web实体模式信息及属性标签信息。(3)基于Web实体模式信息动态变化的特点,本文提出一种基于SVM的Web实体全局模式动态构建方法,该方法可以有效的建立局部模式与全局模式之间的映射关系,根据映射结果扩充全局模式,并且当页面中出现新的Web实体属性信息时,该方法能够及时的将其映射到全局模式中,从而为Web数据集成系统中其他方面的工作提供完整有效的Web实体全局模式。(4)本文利用Web数据集成系统中已有的Web实体全局模式来指导Web页面主数据区域的识别及Web实体属性信息的抽取,从而提高其准确率。Web实体全局模式与Web页面主数据区域识别及Web实体属性信息抽取之间的相互促进作用主要表现为:一方面,Web页面主数据区域的识别及Web实体属性信息的抽取为Web实体全局模式提供更多、更准确的数据支持;另一方面,逐渐丰富的全局模式促进了Web页面主数据区域识别及Web实体属性信息抽取的准确率的提高。本文中的实验验证了这种相互间的促进作用。此外,本文中设计并实现的Web实体全局模式构建原型系统从实际应用角度验证了本文的研究成果。
其他文献
普通高校招生是国家选拔人才、体现公平竞争、构建社会和谐的一个主要环节,是教育领域具有政治意义、社会意义和全局意义的一项重要工作。普通高校招生中的志愿填报及投档方式
随着信息社会的快速发展,在很多新兴的研究领域中存在着大量按照时间序列以流的形式有序产生的数据,如网络监控、入侵检测、情报分析、金融服务、股票交易、电子商务、电信、
富互联网应用程序(Rich Internet Application,RIA)简化并改进了Web应用的用户交互,可以提供更加丰富,更加具有交互性和响应性的用户体验。对于企业应用而言,可以通过RIA技术继续
伴随知识经济的发展和现代信息技术的不断改进,我国的网络环境得到了很大的改善,计算机技术在社会生活的各个领域得到了广泛的应用。随着网络技术的不断成熟及编辑人员素质的提
近年来随着无线通讯的快速发展,基于位置的服务在人们的生活中得到广泛应用。越来越多的用户习惯于用移动设备(Android手机、iPad等)随时随地访问网络,查询自己需要的信息。
随着计算机技术和互联网技术的发展,许多组织收集和存储了大量的数据信息,发布这些数据信息对数据挖掘等研究有着重要的意义,然而,这些数据信息中往往包含着需要保护的个人隐
近年来,数据库技术已经在各个行业领域得到广泛应用,但是随着关系数据库使用者的急速增长,关系数据库中一直使用的结构化查询技术却成了非专业用户使用关系数据库的障碍。针
随着细胞病理研究中相关设备及关键技术的不断进步以及计算机科学技术的发展,细胞图像处理和分析技术在临床诊断和治疗中正发挥着更加重要的作用。而图像分割作为整个图像处
随着互联网的快速发展,病毒问题已经成为信息安全领域最严重的威胁之一。传统的特征码扫描技术是检测已知病毒最有效、最易于实现的技术,在反病毒领域得到了广泛应用。但是特
图像质量评价已成为图像信息工程重要的研究课题之一。主观评价方法费时费力,难以运用到实时系统中;传统的客观评价方法,如峰值信噪比和均方误差,虽然计算简便,但很多情况下其