基于DOM和网页模板的信息抽取

来源 :中山大学 | 被引量 : 0次 | 上传用户:tenderboy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,互联网已经成为一个巨大的知识库。为了有效地利用互联网上的信息,信息抽取技术应运而生。信息抽取技术属于人工智能的一个分支。使用信息抽取技术可以人性化地从网页中把人们需要的信息抽取出来。本文首先介绍了信息抽取技术的发展历史,国内外的研究状况,并把信息抽取技术与几种相关技术作比较。接着,本文对信息抽取技术进行简要的分析,阐述了信息抽取技术的关键任务、主要研究方法、体系结构和评价标准。 本文研究的信息抽取技术是基于DOM(文档结构模型)和网页模板的。DOM是W3C的一个标准,它能够很好的描述网页结构。参照DOM的定义,本文通过构造HTML解析树来描述网页结构。 考虑到互联网上的网页大多是通过网页模板生成的,因此在参考前人的研究成果上,本文提出了一种归纳网页模板的新方法,它能很好地对以表格为布局元素的网页进行模板归纳。通过归纳网页模板,可以减少网页中的噪音信息,从而能够提高信息抽取的准确率。 本文的抽取规则是基于DOM的路径生成的。与一般的基于绝对路径的抽取规则不同,本文的抽取规则是基于相对路径的。基于相对路径的抽取规则能减轻因为网页结构的变动而对信息抽取造成的影响。并且,基于相对路径的抽取规则还有自适应性。当网页结构完全变化时,抽取规则也能重新的自动生成。 为了验证本文理论的可行性,本文开发了一个可视化的网页抽取器,并就生成HTML解析树、归纳网页模板、生成基于相对路径的抽取规则和使用抽取规则抽取网页信息进行详细的介绍。最后,本文给出了归纳网页模板和抽取网页信息的实验结果。实验结果表明本文提出的归纳网页模板方法和信息抽取方法是正确的和高效的。
其他文献
本文综述了粒度计算的研究背景,研究现状和研究意义,着重介绍了粒度计算的研究现状和主要理论模型。在此基础上应用泛系理论的系统观,将“知识”的来源,粒化的标准,粒度的相
虚拟现实技术是一门涉及多学科、多领域的新兴研究领域,它的应用研究水平表征了一个国家整个的科学技术发展水平。分布式虚拟现实系统是虚拟现实技术网络化发展的产物,它的应用
随着微传感技术、射频技术、无线通信技术日新月异的发展,信息产业进入了物联网、无线传感器网络为代表的第三次浪潮,人类社会将进入人与人、人与物、物与物沟通的新时代,“感知
XML正迅速成为互联网上数据表示和交换的标准,研究如何有效地存储和查询XML数据变得越来越必要,解决途径之一就是将XML数据转换成(对象-)关系格式以利用已经成熟的关系数据库技
数字系统的组成可分成数据通道部分和控制器部分,相应的自动综合便分成数据通道综合和控制器综合。控制器综合优化方法的研究涉及到许多理论问题,解决好这些理论问题,寻找到新的
电子邮件已经成为人们日常生活中通信、交流的重要手段之一,但垃圾邮件的泛滥已带来严重后果,有效地区分合法邮件和垃圾邮件成为一项紧迫的任务。近年来,有关垃圾邮件过滤技
粒度计算是信息处理的一种新的概念和计算范式,覆盖了所有有关粒度的理论、方法、技术和工具的研究。它是词计算理论、粗糙集理论、商空间理论、区间计算等的超集,也是软计算
随着计算机网络技术的发展和普及,信息化己经深入到社会的各行各业,电子政务是当前我国信息化工作的重点,各级政府都在建立自己的电子政务系统。要取得电子政务系统的成功,必
随着网络技术的迅猛发展和各种应用的广泛开展,网络信息服务的基本平台——网络服务器正面临着两方面挑战:负载的不断增加和负载的多样性。集群系统凭借其在可靠性、高性能、
世界卫生组织(WHO)和国际联合会(IDF)认为糖尿病是21世纪最有挑战性的医疗保健。糖尿病的并发症和死亡率和经济挑战将影响个人,家庭,企业甚至整个社会。在沙特阿拉伯1980年的经