基于结果模式的Deep Web语义标注研究

来源 :兰州理工大学 | 被引量 : 1次 | 上传用户:xiatiandegushi1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet技术的飞速发展和网络中所含信息规模的不断扩大,存在越来越多以Web查询接口形式进行访问的Deep Web (简称Web数据库或WDB)资源。而信息检索作为互联网应用的重要组成部分,在网络环境下,随着对信息检索研究的不断深入,研究Deep Web数据集成系统受到越来越多的研究者的密切关注。通过最近的研究发现, Deep Web蕴含了大量有价值的数据信息,这些数据资源与市场的需求密切相关,为了能自动的、有效的获取Deep Web背后众多Web数据库信息资源,需要进行大量的WDB数据集成。WDB页面大多是带模板的结构化HTML文档,而HTML语言的特点是在Web上人们可以随意发布内容多种多样,形式不同的内容,这样使得Web上的内容处于杂乱无序的状态,对建立Web数据库集成系统造成了很大的困难。语义标注作为Deep Web数据集成系统中查询结果处理模块中一个非常重要的组成部分,它的主要工作是指对抽取出的Deep Web查询结果数据添加正确的语义信息,使这些数据具有更高的使用价值,同时能被计算机识别和处理。本文首先介绍了研究Deep Web的研究背景和相关知识;其次,对模式获取技术和Deep Web数据标注技术进行了深入的研究,并提出了相应的方法和模型结构图;最后,使用结果模式信息对WDB数据进行有效标注,其主要研究工作包括:1.针对Deep Web结果模式结构信息的丢失问题,提出了一种基于启发式信息的Deep Web结果模式获取方法。通过解析Deep Web结果页面数据,利用启发式信息为结果页面数据添加正确的属性名,进而得到对应Deep Web的结果模式,并对其进行规范化处理解决不同数据源结果模式的结构不一致问题。实验验证该方法可以有效地获取Deep Web的结果模式信息。2.通过对比不同的WDB语义标注方法的优缺点,针对已有的标注方法还不能较好的解决Deep Web查询结果数据的标注问题,提出一种基于结果模式的Deep Web数据标注方法。通过结果页面解析和抽取结构化数据来完成数据预处理的工作,并在集成结果模式和待标注数据之间建立正确的语义映射,进而确定Deep Web数据的标注信息。实验结果表明,该标注方法对查询结果数据具有较好的标注效果。
其他文献
近年来,随着信息技术的快速发展与网络的广泛普及化,数据形式变得更加多样化,传统的静态挖掘技术无法适应快速流动的动态数据的挖掘,数据挖掘的研究向着更深入的方向发展。其
随着基于位置服务相关技术的成熟以及普及,定位应用已为人们的日常生活提供了极大的便利,市场对于定位需求和精准度要求与日俱增。在室外定位方面,卫星定位技术完善且广泛运用,如
对于通信系统的建模存在很多种方法,其中以面向对象方法建模和Petri网建模为主要建模方法。面向对象建模广泛采用UML建模,作为一种半结构半形式化的建模语言,不能提供严谨的
随着Internet规模的日益扩大,各种网络业务不断涌现,网络应用的数据流迅猛增长,网络设备原本单一的“尽力”服务方式已不能满足要求。这一切对各种网络设备提出了新的要求,需
人体识别问题(person re-identification)就是在非重叠的多摄像系统中判断一个摄像头下出现的行人是否与另一个摄像头下出现的行人为同一行人,其在目标提取以及跟踪等领域发挥着
随着互联网技术的日益发展和普及,中文问答社区如知乎、百度知道等正逐渐成为一种广受用户喜爱的信息分享与获取平台。用户可以在其中以提问或者是查询相似问题的形式从其他用
随着科学技术的快速发展,各类数据的存储量与日俱增,对于这些海量数据的挖掘需求越来越强烈,因此大规模单图下的频繁子图挖掘也随之成为研究热点。频繁子图的目标是从图集或者单
DNA指纹图谱是通过实验使不同大小的DNA片断在凝胶底板上分离并显影而得到的图像。DNA指纹图谱首先在法医、亲子鉴定及遇难人员身份确定等社会领域得到应用。随后,当生物学家
弥散张量成像是20世纪90年代出现的一种新型的磁共振功能成像技术。弥散张量成像通过测量组织内水分子的弥散特性,获得水分子弥散的方向、量级和各向异性等信息,进而探测出组
数据发布为数据交换和数据共享提供了便利,但是数据发布的同时,个人隐私信息泄漏的问题也日益突出,隐私保护已成为数据库安全领域面临的一个新挑战。K-匿名作为数据发布中保