论文部分内容阅读
随着Web信息爆炸式增长,用户要想从网上获取信息变得越来越困难。“信息过载”已经成为一个亟待解决的问题。而表格以其精简有效的信息表现形式,被大量应用在Web信息的发布上。据统计,约有52%的Web页面包含表格,对表格进行信息抽取在数据挖掘等领域有重要意义。因此,本文提出了一种基于Web的表格信息抽取方法。Web表格信息抽取技术提出于上世纪九十年代。目前,主要有基于包装器(Wrapper)和结构识别两种方式。前者的通用性差,页面结构一旦改变,需要重新构造包装器。本文重点是对后面一种抽取技术的研究,设计并实现Web表格信息抽取系统,使其能自动理解表格的结构,实现信息的有效抽取。本文首先从网上获取HTML页,对其进行清洗,除去其中包含的无用信息。因为HTML文档对其格式完整性没做严格的要求,会导致后面模块中信息抽取失败,所以本文将HTML文档转换成结构良好的XHTML文档(XML子集),输出的XML文档中除了包含用户感兴趣的真表格以外,还包含用来进行页面布局的假表格。通过大量观察,从真假表格的特征中形成启发式规则,完成对真表格的定位。表格定位后,本文对表格结构识别技术进行了深入的分析。根据对标题特征的分析,形成启发式规则,确定出表格的展丌方式。考虑到表格的跨多行、跨多列的布局特征会导致各个数据单元和相应属性无法一一对应,本文对表格进行了标准化处理,使每一行(列)都具有相同数目对齐的单元格。最后,本文提出了几种特殊Web表格信息抽取方法,并设计和实现了算法。通过对实验结果的测试,表明本文提出的Web信息抽取方法对今后进一步的研究有着重要的意义。