基于XML的Web表格内容抽取技术研究与实现

来源 :河北工业大学 | 被引量 : 0次 | 上传用户：greattomliu

【摘要】

：

随着互联网的迅猛发展，Web已经成为一个庞大的信息仓库，是人们获取知识的主要来源。作为一个表达关系信息简洁而有效的途径，表格在Web文档中的应用十分广泛。据研究发现，约52[％]的

【作者】

：

张娜

【机构】

：

河北工业大学

【出处】

：

河北工业大学

【发表日期】

：

2009年期

【关键词】

：

Web表格内容抽取知识库页面清洗去除噪声算法数据存储算法关系数据库

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的迅猛发展，Web已经成为一个庞大的信息仓库，是人们获取知识的主要来源。作为一个表达关系信息简洁而有效的途径，表格在Web文档中的应用十分广泛。据研究发现，约52[％]的HTML文档中都使用了表格元素。表格是规范数据的载体，其中涵盖了大量有价值的信息。因此，研究Web表格内容抽取在信息抽取领域中有着重要的作用。　　论文结合XML标准技术，提出一种新的基于XML的Web表格内容抽取方案，用以解决用户获取目标数据的问题。该方案首先设计了一种相似表格网页批量获取方法，将源网页存储到知识库。通过设计的页面清洗和去除噪声算法，有效地将源HTML文档转换成符合XML标准的XHTML文档。在把文档解析成XMLDOM树的基础上，提出了一种生成样本实例Xpath的算法，并通过归纳学习的方式获得目标数据的公共路径。除了学习样本实例外，论文还给出了一种自动抽取方式的设计方案。它利用启发式规则定位数据区域，根据两棵树之间的相似度分离出数据项子树，通过比较相似子树来确定目标信息点，从而获得所有目标信息点的公共Xpath表达式。抽取规则文件的生成是自动模式的，它利用XSLT作为抽取规则的描述语言，使用Xpath来定位待抽取信息点，抽取出的数据存放在XML文件中。最后，利用数据存储算法，将XML中的结构化数据迁移到关系数据库中。　　基于上述方法，论文设计并开发了一个基于XML的Web表格内容抽取原型系统。从大量动态Web表格网页的实验结果可以得出，该方法能有效解决Web表格信息抽取中存在的问题，并具有很高的抽取精度，方便于建立各个领域通用的Web表格抽取系统。

其他文献

基于天然气发动机的点火控制系统研究

在节能减排及新能源政策的大力推动之下，天然气以其丰富的储量、相对低廉的价格及相对清洁的排放逐渐为人们所重视，以天然气为燃料的发动机也越来越被广泛应用。点火系统作为天

学位

天然气发动机点火控制系统驱动算法信号容错

T(U)V南德:新能源汽车驶入新基建快车道

由于国内疫情已逐步得到有效控制,近期低迷的汽车产销市场已稳步回升,开始显露复苏迹象.4月初,国家发展改革委产业发展司表示,我国汽车日产量已逐步恢复到去年同期水平的75％以

期刊

机器人视觉能力测试方法研究及测试辅助工具的设计实现

机器人可以代替人类从事各种危险、繁重、枯燥的工作,在自然灾害和核泄漏救援、极地和外星探险、军事侦察和作战、工业制造和物流自动化、民用车辆智能化、助老助残等方面具

学位

机器人视觉能力测试方法真值标注雾效模拟

基于嵌入式技术的混凝土配料控制系统

混凝土是建筑行业中应用最广泛的材料之一。随着建筑行业的迅猛发展,对混凝土的需求日益增加,而混凝土配料控制是保证混凝土生产质量的关键步骤。本文针对传统的混凝土配料控

学位

配料控制嵌入式技术C8051F020迭代学习

基于信息聚合的科技新闻服务研究与实现

随着互联网媒体和用户分享渠道的增加,信息的海量增长造成了严重的信息过载问题。此时,相比于传统的信息聚合主要关注如何提供更加丰富的资源,信息筛选与过滤反而成为更加有

学位

语义相似度词向量文本消重文本聚类完全子图新闻聚合话题挖掘

基于XML的Web表格内容抽取技术研究与实现

其他学术论文