WEB数据自动抽取技术及其应用研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:reefstone
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的飞速发展,网络中包含着海量可以被利用的数据。其中由Web数据库返回并根据预定义模板展现在用户响应页面中的数据记录,是一类非常重要的Web数据类型。这类记录展示的产品或服务信息等构成了页面的主体内容,包含着大量有价值的信息。因此研究如何针对包含这类数据记录的Web页面进行数据抽取,具有重大的现实意义和实用价值。针对这类可称为多记录数据密集型的页面,本文提出了一种基于视觉信息的主数据区域识别方法,能够对页面中数据记录所在的主要数据区域进行有效识别,得到其对应的标签子树。该方法将首先基于标签的视觉位置信息,进行页面的拓展标签树的构建,并对其中无关的页面标签节点进行清理,然后将基于页面的视觉特征完成对主数据区域的识别,得到剪枝后的标签子树。针对于页面中的待抽取数据记录内容,算法通过进行无关节点及噪声块的清除,缩小标签树的规模,将减少后续抽取过程的计算量,有效提高抽取效率。此外,本文还设计并实现了一个基于标签树的Web数据自动抽取系统。该系统能够针对多记录数据密集型页面中的半结构化数据记录进行自动的数据抽取,输出结构化的数据表单。该抽取系统的核心抽取过程主要由树匹配计算、数据记录识别以及数据项抽取三个功能模块组成。系统根据上述主数据区域识别方法生成的视觉信息拓展标签树,将基于树的匹配计算,依次进行数据区域判定、数据记录识别以及数据项的抽取对齐,逐层递进的缩小目标区域的大小,完成对数据的自动抽取。系统抽取测试结果表明,该系统能够有效地针对多记录数据密集型页面,进行自动的数据抽取工作,将反映页面主体信息的数据记录内容抽取为结构化的数据表单形式,能够适应较广泛的现实需求,具有深入推广的实用价值。
其他文献
本文主要研究数字图像水印算法。介绍了数字图像水印的起源和概念;阐述了其特征及应用领域;在对现有自适应图像水印算法充分分析的基础上,将水印信号的处理过程分为预处理和后处
互联网已经深入到人们生活的各个方面,成为人们获取信息的主要途径之一。近些年以来,计算机技术和互联网应用的风靡带来了数据信息的爆发式增长,如何能够高效快捷低成本地从
成人高等教育是我国高等教育体系的重要组成部分,是我国全面提高国民素质,提升国民教育水平的有效举措。伴随着高等教育大众化进程的加快,成人高等教育的招生规模也在迅速的
二叉判定图这种数据结构主要用来表示逻辑表达式,而现在人们已经研制了一些表示方法:比如二叉判定树、真值表、卡诺图等等,但是对于这些表达方式而言,存储空间的需要比较大,
随着信息社会的快速的发展,流媒体技术在互联网媒体信息传播方面使用的越来越广泛。然而,随着流媒体的快速发展,流媒体文件的版权保护成为急需考虑的问题,引起各方面的重视,
与传统C/S模式相比,P2P模式致力于高效合理地组织和利用Internet 边缘上大量分布的计算、存储、通信、信息等资源,在充分利用节点资源、提高系统可扩展性等方面具有巨大的潜力
学位
近年来,随着数据存储技术的飞速发展,各行各业均积累了宝贵的海量数据。那么如何高效利用“沉淀数据”辅助决策制定,进而推动经济社会发展业已成为亟需解决的问题。数据挖掘
网络的迅猛发展,网络的开放性以及日益强大的计算机技术的发展,改变了很多行业的工作模式,也改变了人们的生活,娱乐,学习模式。与此同时,各种网络攻击、病毒以及信息窃听等网络安全
随着信息技术的高速发展,基于免疫原理的入侵检测系统的研究已经成为网络安全问题的研究热点。本文首先论述了入侵检测系统的概念、发展现状及发展趋势、入侵检测的模型和分