基于Web的表格信息抽取研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户：Dutch_deamer

【摘要】

：

随着Web信息爆炸式增长,用户要想从网上获取信息变得越来越困难。“信息过载”已经成为一个亟待解决的问题。而表格以其精简有效的信息表现形式,被大量应用在Web信息的发布上

【作者】

：

秦振海

【机构】

：

安徽大学

【出处】

：

安徽大学

【发表日期】

：

2010年期

【关键词】

：

信息抽取 HTML 表格定位 XML 结构识别 DOM

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Web信息爆炸式增长,用户要想从网上获取信息变得越来越困难。“信息过载”已经成为一个亟待解决的问题。而表格以其精简有效的信息表现形式,被大量应用在Web信息的发布上。据统计,约有52%的Web页面包含表格,对表格进行信息抽取在数据挖掘等领域有重要意义。因此,本文提出了一种基于Web的表格信息抽取方法。Web表格信息抽取技术提出于上世纪九十年代。目前,主要有基于包装器(Wrapper)和结构识别两种方式。前者的通用性差,页面结构一旦改变,需要重新构造包装器。本文重点是对后面一种抽取技术的研究,设计并实现Web表格信息抽取系统,使其能自动理解表格的结构,实现信息的有效抽取。本文首先从网上获取HTML页,对其进行清洗,除去其中包含的无用信息。因为HTML文档对其格式完整性没做严格的要求,会导致后面模块中信息抽取失败,所以本文将HTML文档转换成结构良好的XHTML文档(XML子集),输出的XML文档中除了包含用户感兴趣的真表格以外,还包含用来进行页面布局的假表格。通过大量观察,从真假表格的特征中形成启发式规则,完成对真表格的定位。表格定位后,本文对表格结构识别技术进行了深入的分析。根据对标题特征的分析,形成启发式规则,确定出表格的展丌方式。考虑到表格的跨多行、跨多列的布局特征会导致各个数据单元和相应属性无法一一对应,本文对表格进行了标准化处理,使每一行(列)都具有相同数目对齐的单元格。最后,本文提出了几种特殊Web表格信息抽取方法,并设计和实现了算法。通过对实验结果的测试,表明本文提出的Web信息抽取方法对今后进一步的研究有着重要的意义。

其他文献

基于虚拟仪器的电容器失效预测研究

随着电子技术的快速发展,电子器件正在不断地向着微小型化的方向发展,集成技术不断地得到更新与深化。电能表也由传统的感应式电能表逐步过渡到电子式电能表,目前已发展到全部采用电子式电能表。对于此类实行在线监测的测量仪器,人们非常希望仪器能够长时间、无故障、准确地工作。仪器的可靠性有赖于组成仪器的各个组成部件。在这种发展趋势下,如何进一步改善和提高电子元器件的可靠性水平已经成为一个不容忽视的问题,并得到越

学位

电容器失效机理预测虚拟仪器

基于FPGA的VLIW微处理器设计实现

随着FPGA技术的几十年发展,迅速改变了数字逻辑设计与生产方式。配备高性能的ASIC和灵活的微处理器,使得FPGA在各个新领域的应用成为了可能。在微处理器日新月异发展的今天,

学位

FPGAVLIW流水线微处理器

基于博弈认知无线网络动态频谱分配和功率控制研究

认知无线网络的提出改变了以往传统的频谱利用方式,本论文提出基于博弈的认知无线网络频谱分配和功率控制研究方案。认知无线网络中次用户通过某种协议方式伺机动态接入主用

学位

频谱分配功率控制博弈论纳什均衡快速收敛信心函数

基于Web的表格信息抽取研究

其他学术论文