基于XML的网页信息抽取

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:seniorma21
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅猛发展,"信息过载"已经成为一个亟待解决的问题.为了使用户准确获取他想要的信息,信息抽取成为必要.从网页中抽取信息的程序称为Wrapper.关键的任务是:Wrapper的构造要尽可能快速,不需要过多人为地参与,并且,构造出的Wrapper要尽可能健壮,能适应网页的变化,同时,还要尽可能通用,与具体网站无关.针对Wrapper生成问题,人们提出了各种各样的方法.这些方法的抽取模式语言基本上都是自己定制的,往往很简单、难以描述精确或者复杂的信息抽取模式.尽管通过人为标记的样本可以自动归纳出抽取规则,但这些抽取规则很难达到很高的精度、健壮性和通用性.该文使用标准的XML技术来解决网页信息抽取问题.基于标准的XSLT,可以利用它强大而且灵活的特性编写简单、健壮和通用的抽取规则.为了快速的构造抽取规则,我们开发了一个信息抽取平台.除了手工编写抽取规则外,该文提出了新颖的方法自动归纳网页模板和记录模板,以及相应的抽取规则.网页模板可以用来抽取网页的主要内容.这对很多基于网页内容的工作很重要,比如网页信息检索,网页聚类与分类等等.记录模板可以用来抽取网页中的列表数据.另外,由于使用的是XSLT,抽取模式可以很容易理解和修改.最后,我们还开发了多网页信息抽取框架.实际的应用经常需要对多个网页进行抽取.基于该文所设计开发的Web信息抽取平台,可以很快的构建出健壮和通用的网页信息抽取Wrapper.
其他文献
本文在对现有数据采集系统通信手段的分析和比较的基础上,提出了一种基于GSM短消息的无线数据采集系统的设计方案,把发展比较完善的GSM网络引入到数据采集系统当中,利用GSM网
元件参数分析仪主要用于电子电路行业产品研发和生产,用来测量电子电路元器件多种参数:阻抗、导纳、相角、电阻、电抗、电导、电纳、电容、电感、品质因素、损耗因素等。它属于基础测量仪器,是精密LCR测量与频率响应相结合的综合测量仪器。目前,国内现有元件参数分析仪绝大部分在300KHz以下。国际上也仅有几家公司生产频率达到1MHz的同类仪器。近年来,国内相关行业对元件在1MHz左右的集中参数进行准确测量与分
本文主要研究粒子群算法及其在互联电力系统控制中分散控制器的参数优化.首先,对粒子群算法(PSO)进行几点改进.虽然PSO收敛快,但是该算法具有运算早期精度较低,易发散等缺点,
在日趋激烈的市场竞争中,钢铁企业立足的基本条件是:以灵活的产品结构、生产组织方式和高质量的产品响应市场需求,以多品种小批量生产、准时交货和具有竞争力的价格占领市场。所
本课题在研究SVG矢量图形格式以及与其相关的技术的基础上,对其在Web应用方面做了一些探索,从已有数据来通过编程的方式创建SVG文件;提供了对于SVG图形的基本交互的支持,可以方便
仿真技术综合了当代科学技术中多种现代化尖端手段,在科学技术领域起到及其重要的作用.半物理仿真作为仿真技术的一个分支,涉及的领域极广,包括机电技术、液压技术、控制技术
城市道路拥堵状况日益严峻,主要成因是现有的交通环境、交通设施及交通工具与人口增长、频繁出行和机动车保有量的持续上涨不匹配。城市道路交通状态评价是依据实时交通状况提
生化分析仪是临床生化检验的重要仪器,目前我国生化分析仪的研制水平较低,全自动生化分析仪的开发与世界先进仪器相比有很大差距,本文旨在研究与开发一种操作方便、功能强、
PID控制器以其算法简单、鲁棒性好、可靠性高等优势,被大范围的应用在过程控制和运动控制中。目前国内外对PID控制器的整定研究水平已经达到很高的程度,但是理论研究往往与实践
飞行员在操控直升机时,由于协调动作过多、操作反应有延迟从而一直处于高度紧张状态,承受很大的工作负荷。从这方面说,直升机的操作比固定翼飞机更难。因此,使用直升机飞行控制系