Deep Web数据抽取关键技术研究

被引量 : 0次 | 上传用户：zhangjunfeng_1988

【摘要】

：

随着互联网技术及其相关技术的迅猛发展,Web已经逐渐成为最主要的信息来源。有效地获取并集成Web数据,能够为数据的分析挖掘提供强有力的帮助,具有十分重要的应用价值和意义

【作者】

：

蔡益清

【发表日期】

：

2012年期

【关键词】

：

Web数据集成 Web数据抽取 Web页面模板 Web数据语义标注

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网技术及其相关技术的迅猛发展,Web已经逐渐成为最主要的信息来源。有效地获取并集成Web数据,能够为数据的分析挖掘提供强有力的帮助,具有十分重要的应用价值和意义。但是仅通过手工的方式对这些信息进行集成,在实际当中是一件非常困难的事情,难以有效利用Web信息。因此,Web数据自动化集成技术成为研究热点。Web数据自动抽取即是Web数据集成自动化中的关键问题之一。Web数据抽取包含了Web数据的提取和语义标注。Web数据抽取就是从Web页面中识别并提取出用户感兴趣的信息,然后对这些信息进行处理,形成更为结构化且语义清晰,能被计算机理解处理的数据。按照获取信息在Web的深度,可将Web划分为Surface Web和Deep Web。目前,Deep Web的信息量已经远远超过了Surface Web,数据质量也比SurfaceWeb高,具有更高的应用价值。本论文以Deep Web数据集成系统为目标应用,面向Deep Web中异构的海量数据,针对Deep Web数据集成中的若干关键问题,所提出的创新性的工作主要包括以下两个方面。(1)基于字符串模式匹配的页面模板生成方法每个Deep Web站点都会根据自己网站的主题,采用不同的布局风格设计页面结构,展示页面数据,不同站点的网页设计各异。因此,从不同的数据源抽取数据,就需要一些有效的工具,提供相应的服务。目前主要是通过编写包装器,从HTML页面上抽取数据。在许多抽取包装器的研究中,构造Web站点的页面模板都是研究开始必须解决的一个关键问题。现有的页面模板生成方法难以处理复杂的页面结构,影响了页面模板的准确性和可靠性。本文提出了一个新颖有效的方法能够自动的构造Web站点的页面模板。该方法是基于字符串模式匹配自动搜寻Web页面中的嵌套结构和重复结构,能够处理复杂页面,从而构造Web站点的页面模板。(2)基于页面视觉特征的Web数据语义标注方法现有的Web数据语义标注方法,多从数据本身出发,围绕数据项语义特征,模式特征以及数据项之间的逻辑关系,来分析数据的语义。在很多情况下,仅通过分析数据的语义特征,模式特征等,难以准确标注两个位置邻近,且语义特征或模式特征十分类似的数据项。本文提出了一种基于页面视觉特征约束条件随机场的Web数据标注方法,通过引入Web页面视觉特征作为条件随机场标注模型的约束条件提高语义标注的性能。首先,在对同类Web页面进行数据抽取过程中,可以容易地获得数据的页面视觉特征,从而生成每条数据记录对应的页面视觉特征序列。通过分析一部分样本数据的页面视觉特征序列,可以获得该类页面每种语义数据项的公共视觉特征,以此征构建每个语义数据项对应的页面视觉特征约束条件。然后,将所构建的约束条件引入传统条件随机场模型中,建构页面视觉特征约束条件随机场模型,对Web数据进行语义标注。通过在标注模型中引入数据的页面视觉特征,能够准确标注两个位置邻近,且语义特征或模式特征十分类似的数据项,有效地提高了Web语义标注的准确性。

其他文献

西部民族地区农村“留守儿童”的生活状态及成长困境分析——以贵州省为典型个案

从西部民族地区发展的实际出发,通过深入、客观、真实的分析农村＂留守儿童＂的生活状态及特点、成长困境及影响,旨在透视这一特定社会群体出现的新情况、新问题。研究表明,从生

期刊

农村留守儿童生活状况成长困境民族地区

中国梦视域下大学生就业教育改革与创新探究

当代大学生是实现中国梦的主力军,高校要做好毕业生就业教育工作。但目前高校大学生的就业教育效果并不理想,主要存在对就业教育课程重视不够、对就业教育定位不科学、就业教

期刊

就业教育大学生改革与创新

海科集团ERP实施项目设计与实施

为了优化企业管理模式,海科集团以两化融合为契机,按照“统一领导、集中管理、整体规划、分步实施”原则,利用2011至2012两年时间全面打造管理咨询暨ERP管理信息化示范工程项

学位

ERP流程再造供应链

由《京华烟云》谈文化负载词的可译性研究

翻译是一个常谈常新的领域,其中,可译性与不可译性的讨论从未停止。可译性指的是双语翻译中翻译可能性的程度。一方面,我们要坚持可译论,另一方面,由于种种限制,不可译性是客

学位

文化负载词可译性补偿策略翻译方法

具有二级三维网络结构的壳聚糖/羟基磷灰石骨组织工程复合支架材料的构建及其生物性能研究

目前,因创伤、先天性畸形、骨关节炎、骨质疏松和肿瘤等原因造成的骨缺损疾病对骨移植材料的需求日趋增加。当前常用的骨修复材料包括自体骨移植物、异种或同种异体骨移植物

学位

骨组织工程壳聚糖羟基磷灰石骨髓间充质干细胞纳米结构

实事求是尊重历史——“上交”团龄计算和前身评估的历史依据(上)

期刊

交响音乐工部局历史依据

高校大学生网络政治参与研究

以计算机技术、通信技术和信息技术为支撑的国际互联网的高速发展向人们宣告网络时代的到来。如今,互联网已经深入到人们生活的各个领域,重塑全球的政治、经济、社会和文化等

学位

大学生网络政治参与研究

HELLP综合征的研究进展

HELLP综合征是妊娠期高血压疾病的严重并发症,常危及母婴生命,是导致孕产妇及围生儿死亡的原因之一。近年来,国内外学者对其发病机制进行了大量研究,有母胎免疫失衡,血小板聚

期刊

HELLP综合征人类白细胞抗原G凝血酶敏感蛋白1长链L-3-羟酰CoA脱氢酶瘦素

不同种植体影响种植体周围炎发生发展的实验研究

背景和目的：种植体周围炎是种植修复后常见的并发症之一,常因骨吸收丧失和进行性牙周袋形成而导致种植修复失败。影响种植体周围骨吸收的因素有很多,如生理性因素,种植手术创

学位

BLB种植体表面处理表面结构种植体周围炎

浙江金华盆地红层地下水系的形成及其分布规律(研究生论文摘要)

<正> 众所周知,红层在世界各地都有分布,但因为红层内金属矿产分布少,地下水资源贫乏,因此红层和红层地下水的研究程度比较低。我国中新生代红层出露面积约46万平方公里。红

期刊

地下水系地下水年龄孔隙成因分布规律微孔隙储集性能粒间孔隙研究生论文

Deep Web数据抽取关键技术研究

其他学术论文