面向Deep Web数据集成的数据抽取研究

来源 :江苏大学 | 被引量 : 0次 | 上传用户:larrytangliang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web的迅猛发展,Web上网页的数量已经超过万亿级,并且其中大部分都是深层网络(Deep Web)的数据。这些数据呈现出规模巨大、结构化程度高、动态性与异质性并且按领域分布的特征。为了以尽可能自动的方式获取和利用这些数据,近年来Deep Web数据集成技术受到越来越多研究者的关注。Deep Web数据抽取是数据集成中的关键问题,研究如何从Web页中抽取出半结构和无结构的数据以供后续处理及使用,是实现数据集成的基础和保证。   本文分析了已有的Deep Web数据抽取技术,同时结合Deep Web查询结果页的特点,提出一种Deep Web数据抽取方法。该方法首先对网页进行分块,接着在分块的基础上进行数据区域识别,最后对数据区域进行数据记录抽取。文最后设计并实现了一个数据抽取原型系统。本文的研究内容包括:   (1)网页分块。传统的数据抽取方法将’Web页视为整体处理,导致网页中无关的部分直接干扰数据抽取,为此提出基于网页重复结构和相似URL的结果页分块算法,其核心思想是:将Web数据抽取的对象由直接的Web页面转化成Web页面所包含的特定语义块。网页分块在底层上消除了页面噪音信息对数据抽取的干扰,降低了数据抽取问题的复杂度,为后续工作提供了重要的基础和支持。   (2)数据区域识别。在网页分块的基础上,结合:Deep Web查询结果页的特点,提出基于URL相似性变化的Deep Web数据区域识别算法。该算法能准确识别出数据区域,为下一步的数据抽取奠定了可靠的基础。   (3)数据记录抽取。为实现对同一模板生成页面的自动抽取,将待抽取页面数据记录的抽取转变为待抽取页面中数据区域的定位和数据记录之间边界的查找。该算法可以准确分割数据记录,实现了数据记录的完整和准确抽取。   (4)原型系统研发。设计并实现一个数据抽取原型系统,系统的运行效果和实验结果表明本文所提方法是可行和有效的。
其他文献
针对农田草害的严重性及喷施除草剂所附带的污染等问题,研究高效可行、降低环境污染的智能除草方式成为当前的研究热点,在节约、环保的同时有利于农业的可持续发展。智能除草
如何对有限元模型进行合理有效的简化一直是有限元建模的难点。本文在全面综述现有模型简化技术的基础上,结合模型的几何属性及有限元软件的网格剖分特点进行了模型简化策略
搜索引擎作为获取因特网上海量信息的重要手段,是信息检索领域重要的研究课题,随着信息技术的不断发展,因特网上的信息量也与日剧增,内容庞大,组织松散。因此如何优化搜索引
随着海洋技术的发展,海洋研究领域对海洋环境数据的需求不断增大,由于海洋环境数据的调查方式不同,不同测量仪器测得的数据格式多样,使得海洋环境数据不能充分共享。此外,由
科学计算可视化是将科学与工程计算等产生的大规模数据转换为图形、图像的有力工具。海量、多分辨率、多时相、多类型海洋观测数据及模式分析数据的产生,无疑能给海洋研究工
随着网络技术以及多媒体技术的飞速发展,视频以其突出的优势深入地影响着社会生活,成为了传达信息的主要方式。正因如此,各种音频、视频编码标准也不断制定推出,视频格式繁多
船舶智能避碰问题研究,特别是多目标避碰问题,一直以来是智能航海领域的研究热点和重点。船舶碰撞事故不仅会造成巨大的经济损失和人员伤亡,也会对环境造成巨大破坏。多目标
伴随着信息化的不断普及与互联网技术的不断创新,信息过载问题从更多、更广的方面影响着我们的生活。推荐系统已经成为继搜索引擎之后处理信息过载问题的又一有力武器。如今
纹理合成及分类是近年来一个比较活跃的研究领域,在数字图像处理、计算机视觉以及模式识别领域有着非常广泛的应用背景。纹理合成的目的是产生一幅比样本图像大的新图像,新图
学位