论文部分内容阅读
随着互联网的迅猛发展,Web已经成为一个庞大的信息仓库,是人们获取知识的主要来源。作为一个表达关系信息简洁而有效的途径,表格在Web文档中的应用十分广泛。据研究发现,约52[%]的HTML文档中都使用了表格元素。表格是规范数据的载体,其中涵盖了大量有价值的信息。因此,研究Web表格内容抽取在信息抽取领域中有着重要的作用。
论文结合XML标准技术,提出一种新的基于XML的Web表格内容抽取方案,用以解决用户获取目标数据的问题。该方案首先设计了一种相似表格网页批量获取方法,将源网页存储到知识库。通过设计的页面清洗和去除噪声算法,有效地将源HTML文档转换成符合XML标准的XHTML文档。在把文档解析成XMLDOM树的基础上,提出了一种生成样本实例Xpath的算法,并通过归纳学习的方式获得目标数据的公共路径。除了学习样本实例外,论文还给出了一种自动抽取方式的设计方案。它利用启发式规则定位数据区域,根据两棵树之间的相似度分离出数据项子树,通过比较相似子树来确定目标信息点,从而获得所有目标信息点的公共Xpath表达式。抽取规则文件的生成是自动模式的,它利用XSLT作为抽取规则的描述语言,使用Xpath来定位待抽取信息点,抽取出的数据存放在XML文件中。最后,利用数据存储算法,将XML中的结构化数据迁移到关系数据库中。
基于上述方法,论文设计并开发了一个基于XML的Web表格内容抽取原型系统。从大量动态Web表格网页的实验结果可以得出,该方法能有效解决Web表格信息抽取中存在的问题,并具有很高的抽取精度,方便于建立各个领域通用的Web表格抽取系统。