论文部分内容阅读
随着Internet的飞速发展,网络中包含着海量可以被利用的数据。其中由Web数据库返回并根据预定义模板展现在用户响应页面中的数据记录,是一类非常重要的Web数据类型。这类记录展示的产品或服务信息等构成了页面的主体内容,包含着大量有价值的信息。因此研究如何针对包含这类数据记录的Web页面进行数据抽取,具有重大的现实意义和实用价值。针对这类可称为多记录数据密集型的页面,本文提出了一种基于视觉信息的主数据区域识别方法,能够对页面中数据记录所在的主要数据区域进行有效识别,得到其对应的标签子树。该方法将首先基于标签的视觉位置信息,进行页面的拓展标签树的构建,并对其中无关的页面标签节点进行清理,然后将基于页面的视觉特征完成对主数据区域的识别,得到剪枝后的标签子树。针对于页面中的待抽取数据记录内容,算法通过进行无关节点及噪声块的清除,缩小标签树的规模,将减少后续抽取过程的计算量,有效提高抽取效率。此外,本文还设计并实现了一个基于标签树的Web数据自动抽取系统。该系统能够针对多记录数据密集型页面中的半结构化数据记录进行自动的数据抽取,输出结构化的数据表单。该抽取系统的核心抽取过程主要由树匹配计算、数据记录识别以及数据项抽取三个功能模块组成。系统根据上述主数据区域识别方法生成的视觉信息拓展标签树,将基于树的匹配计算,依次进行数据区域判定、数据记录识别以及数据项的抽取对齐,逐层递进的缩小目标区域的大小,完成对数据的自动抽取。系统抽取测试结果表明,该系统能够有效地针对多记录数据密集型页面,进行自动的数据抽取工作,将反映页面主体信息的数据记录内容抽取为结构化的数据表单形式,能够适应较广泛的现实需求,具有深入推广的实用价值。