【摘 要】
:
随着互联网的快速发展,Web上产生了大量与领域相关的信息,这些信息也成了人类获取知识的重要来源。互联网已经成为一个巨大的信息交流平台,大量的信息嵌入在Web页面中。Web页
论文部分内容阅读
随着互联网的快速发展,Web上产生了大量与领域相关的信息,这些信息也成了人类获取知识的重要来源。互联网已经成为一个巨大的信息交流平台,大量的信息嵌入在Web页面中。Web页面是一种半结构化的数据,Web数据抽取可以将这种半结构化数据抽取并转化为结构化数据,从而为进一步的知识获取做准备,这一过程通常采用一个称之为包装器的应用程序来实现。包装器的工作依赖于页面的结构信息,然而由于互联网的动态特征,站点可能会经常更新其展现形,导致了Web页面结构发生变化,这一变化最终导致包装器停止工作。包装器自适应针对这一问题开展相关的研究。包装器的自适应研究可以分为两个子问题:包装器校验和包装器重归纳。第一个子问题是如何对包装器返回数据进行有效性校验,确保包装器处于正常工作的状态。当站点结构发生变动时,旧的包装器可能无法继续抽取到数据,或者抽取出来的数据是完全错误的,当系统检测出这一情况发生时,对设计者进行提醒,或自动执行包装器修复过程进行修复。包装器重归纳系统对抽取规则进行修复从而使包装器能够在结构变化后的新页面上正常工作。本文充分利用Web数据集成系统中已有数据提供的信息,利用其展现出来的数据特征对新抽取的数据记录进行校验,检测包装器是否正常工作。同时结合Web页面自身体现各种特征,对Web数据页面中的属性标签和数据元素进行准确的标记,生成良好的训练样例,辅助生成新的包装器。实验结果表明,该方法有效地提高了包装器的自适应性能。
其他文献
本文研究了渤海海洋防灾减灾数据仓库构建过程中涉及到的一些关键技术,包括数据仓库设计,OLAP快速访问策略,以及序列OLAP系统设计。关于渤海海洋防灾减灾数据仓库的设计,分别
在医学临床诊断治疗中,通常需要对病人的病变部位进行多模态成像,来获取互补、有效、全面的信息,以提高医生的诊断治疗效果,这就需要对不同模态的医学图像进行信息融合,将多
随着计算机软件行业迅速发展,需求日益复杂,软件产品质量的提高变得越来越重要,已成为人们关注的焦点。软件测试是保证软件质量最重要的手段,也逐渐成为软件开发过程的重要阶
基于内容的中草药植物图像检索,是基于内容的图像检索技术在中草药植物检索领域的应用,其目的是通过将中草药植物图像的视觉特征与数据库的特征数据进行比较,得出符合相似度
智能视频监控是计算机视觉领域新兴的一个前沿课题,与传统的视频监控系统相比,智能监控系统的监控能力强、耗费人力少、稳定性好、安全隐患少、准确性以及实时性都有明显的提
2015年第二季度,中国电子信息产业发展研究院发布了旨在全面梳理总结移动设备产业现状的《移动智能终端产业发展白皮书(2015版)》。文中指出,过去一年移动智能终端产业在全球
在线音乐的快速发展,为用户对音乐的获取提供了极大的便利。为了方便用户选择,在线音乐通常会对音乐进行分类,基于情感的音乐分类是常见的一种分类方式。由于同一首音乐可能
查询纠错属于自然语言处理研究的一方面,随着检索系统(如谷歌、百度、新浪、搜狗等)检索访问量不断增加,查询纠错处理技术受到越来越多的关注。在实际的应用中,用户进行查询
节能是无线传感器网络(WSNs)设计者首要考虑的问题。节点分簇组网方法和网络跨层设计方法是无线传感器网络提高网络性能的技术。本文基于LEACH路由协议进行跨层设计,专门研究
当今伴随着互联网的迅猛发展,各种不同表现形式、不同内容的图像数据也在以几何数量级的速度激增。面对如此纷繁浩大的图像数据库,如何快速而准确地检索到用户满意的图像结果