基于XML的Web表格内容抽取技术研究与实现

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:greattomliu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅猛发展,Web已经成为一个庞大的信息仓库,是人们获取知识的主要来源。作为一个表达关系信息简洁而有效的途径,表格在Web文档中的应用十分广泛。据研究发现,约52[%]的HTML文档中都使用了表格元素。表格是规范数据的载体,其中涵盖了大量有价值的信息。因此,研究Web表格内容抽取在信息抽取领域中有着重要的作用。   论文结合XML标准技术,提出一种新的基于XML的Web表格内容抽取方案,用以解决用户获取目标数据的问题。该方案首先设计了一种相似表格网页批量获取方法,将源网页存储到知识库。通过设计的页面清洗和去除噪声算法,有效地将源HTML文档转换成符合XML标准的XHTML文档。在把文档解析成XMLDOM树的基础上,提出了一种生成样本实例Xpath的算法,并通过归纳学习的方式获得目标数据的公共路径。除了学习样本实例外,论文还给出了一种自动抽取方式的设计方案。它利用启发式规则定位数据区域,根据两棵树之间的相似度分离出数据项子树,通过比较相似子树来确定目标信息点,从而获得所有目标信息点的公共Xpath表达式。抽取规则文件的生成是自动模式的,它利用XSLT作为抽取规则的描述语言,使用Xpath来定位待抽取信息点,抽取出的数据存放在XML文件中。最后,利用数据存储算法,将XML中的结构化数据迁移到关系数据库中。   基于上述方法,论文设计并开发了一个基于XML的Web表格内容抽取原型系统。从大量动态Web表格网页的实验结果可以得出,该方法能有效解决Web表格信息抽取中存在的问题,并具有很高的抽取精度,方便于建立各个领域通用的Web表格抽取系统。
其他文献
在节能减排及新能源政策的大力推动之下,天然气以其丰富的储量、相对低廉的价格及相对清洁的排放逐渐为人们所重视,以天然气为燃料的发动机也越来越被广泛应用。点火系统作为天
由于国内疫情已逐步得到有效控制,近期低迷的汽车产销市场已稳步回升,开始显露复苏迹象.4月初,国家发展改革委产业发展司表示,我国汽车日产量已逐步恢复到去年同期水平的75%以
期刊
机器人可以代替人类从事各种危险、繁重、枯燥的工作,在自然灾害和核泄漏救援、极地和外星探险、军事侦察和作战、工业制造和物流自动化、民用车辆智能化、助老助残等方面具
混凝土是建筑行业中应用最广泛的材料之一。随着建筑行业的迅猛发展,对混凝土的需求日益增加,而混凝土配料控制是保证混凝土生产质量的关键步骤。本文针对传统的混凝土配料控
随着互联网媒体和用户分享渠道的增加,信息的海量增长造成了严重的信息过载问题。此时,相比于传统的信息聚合主要关注如何提供更加丰富的资源,信息筛选与过滤反而成为更加有