论文部分内容阅读
随着Web的迅猛发展,Web上网页的数量已经超过万亿级,并且其中大部分都是深层网络(Deep Web)的数据。这些数据呈现出规模巨大、结构化程度高、动态性与异质性并且按领域分布的特征。为了以尽可能自动的方式获取和利用这些数据,近年来Deep Web数据集成技术受到越来越多研究者的关注。Deep Web数据抽取是数据集成中的关键问题,研究如何从Web页中抽取出半结构和无结构的数据以供后续处理及使用,是实现数据集成的基础和保证。
本文分析了已有的Deep Web数据抽取技术,同时结合Deep Web查询结果页的特点,提出一种Deep Web数据抽取方法。该方法首先对网页进行分块,接着在分块的基础上进行数据区域识别,最后对数据区域进行数据记录抽取。文最后设计并实现了一个数据抽取原型系统。本文的研究内容包括:
(1)网页分块。传统的数据抽取方法将’Web页视为整体处理,导致网页中无关的部分直接干扰数据抽取,为此提出基于网页重复结构和相似URL的结果页分块算法,其核心思想是:将Web数据抽取的对象由直接的Web页面转化成Web页面所包含的特定语义块。网页分块在底层上消除了页面噪音信息对数据抽取的干扰,降低了数据抽取问题的复杂度,为后续工作提供了重要的基础和支持。
(2)数据区域识别。在网页分块的基础上,结合:Deep Web查询结果页的特点,提出基于URL相似性变化的Deep Web数据区域识别算法。该算法能准确识别出数据区域,为下一步的数据抽取奠定了可靠的基础。
(3)数据记录抽取。为实现对同一模板生成页面的自动抽取,将待抽取页面数据记录的抽取转变为待抽取页面中数据区域的定位和数据记录之间边界的查找。该算法可以准确分割数据记录,实现了数据记录的完整和准确抽取。
(4)原型系统研发。设计并实现一个数据抽取原型系统,系统的运行效果和实验结果表明本文所提方法是可行和有效的。