Web信息自动抽取技术的研究

来源 :电子科技大学 | 被引量 : 8次 | 上传用户：diliwer3

【摘要】

：

随着科技的进步网络技术的发展，互联网已经在各个领域融入我们的生活。面对日益增长的网页数据，如何获取其中有价值的信息或者是所感兴趣的信息，是一个需要面对的问题。为了获取

【作者】

：

廖崇粮

【机构】

：

电子科技大学

【出处】

：

电子科技大学

【发表日期】

：

2012年01期

【关键词】

：

Web信息抽取基于模型的包装器脚本

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着科技的进步网络技术的发展，互联网已经在各个领域融入我们的生活。面对日益增长的网页数据，如何获取其中有价值的信息或者是所感兴趣的信息，是一个需要面对的问题。为了获取这些网页中的半结构化数据，本文研究并实现了一种基于模型的信息抽取方法，并将其应用于M-IE(Modeling-base InformationExtraction)系统。本文提出一种基于模型的信息抽取方法：首先通过界面简单操作制定抽取规则，然后根据规则自动抽取信息。通过研究用户浏览网页的行为，结合对浏览器内核的研究，本文提出一种以三元素为基础的脚本描述。这里的三元素分别描述了：1.网页中指定的元素；2.对元素进行的操作；3.输出内容的格式。然后对最终生成的脚本如何解析，做了详细的阐述，对于元素1的实现给出了详细的算法说明。基于模型的信息抽取方法可以应用于本文提出的M-IE系统中。该系统主要针对论坛、微博和门户网站进行精确信息抓取，输出结构化的数据。最关键的是，这些数据是具有语义的。论坛和微博所抽取的信息，可以反应草根群体的信息热点。在M-IE系统中，通过界面可以简单快速的生成抽取规则，不需要专业知识。M-IE系统的总体结构可以划分为抽取规则生成模块、抽取规则解析模块、信息过滤模块、数据库模块和数据分析模块。该系统中各个模块具有定义良好的接口，可以动态替换。本文最后以学校论坛和sina微博为例子，阐述了在M-IE系统中，如何经过简单的操作生成抽取规则。在生成抽取规则时，可以预览到即将抓取的信息。这些信息不仅是结构化的，而且是具有语义的。

其他文献

高速高精度AD转换器设计

随着计算机技术、通信技术和微电子等技术的高速发展，信息技术已渗透到军事、民用领域的各个角落。在系统先进的电子设备或电子系统中，高速高分辩AD和DA转换器已成为决定诸如雷

学位

AD转换器模拟集成电路数字冗余修正电路模数转换器

基于Linux的安全操作系统的审计机制的研究与实现

安全审计作为安全操作系统的一个重要安全机制,对于监督系统的正常运行、保障安全策略的正确实施、构造计算机入侵检测系统等都具有十分重要的意义.该文研究了安全审计的相关

学位

安全操作系统安全审计内核模块审计事件

分子可视化建模及其软件实现

随着生物信息学的蓬勃发展和分子生物信息数据库的不断扩大,生物分子的三维结构显示对于生物信息的分析起着越来越重要的作用。蛋白质分子可视化软件HJMV(Hust Java Molecula

学位

生物信息可视化场景图几何模型运动模型

支持并行开发的软件配置管理系统研究

当前的软件项目正面临着需求日益复杂、变更日益频繁,而开发周期越来越短、对软件的质量要求越来越高的矛盾,因此,传统的由个人单独完成整个项目的开发方式变得越来越不现实,

学位

软件配置管理并行软件开发版本管理分支模型团队支持

基于蚁群原理的QoS多约束单播路由算法研究

该文在第一章首先介绍了QoS问题的提出、基本概念、度量、QoS的几个关键问题;第二章分析了IP QoS的一般解决途径及其实现机制;第三章给出了IP路由概念,以及几种常见的路由算

学位

服务质量蚂蚁算法多约束单播路由OPNET

面向遥感大数据应用的云计算任务调度研究

遥感通过非接触、远距离探测技术,接收地物对电磁波的辐射和反射信息分析地物的特性,成为了监测和获取地球资源的重要手段。随着光学技术、无线电电子技术和计算机科学技术的发展,遥感图像的空间和光谱分辨率越来越高,遥感数据量已呈现爆炸式增长趋势,而且数据类型不在单一,遥感数据已明显具有大数据特征。遥感大数据应用的计算流程复杂,光谱、时间和空间复杂度高,在传统的单机计算中往往会出现计算和存储的瓶颈,这些都是当

学位

高光谱遥感图像分布式并行融合分类SparkDAG任务调度

面向敏捷企业的软件体系结构研究：AMBA的设计与实现

敏捷企业被誉为21世纪最有竞争力的企业组织模式,"敏捷"就是指企业在不可预见的、多变的环境中快速调整适应的能力.开展敏捷企业模式的研究、开发与应用,对于提高中国企业,特

学位

敏捷企业软件体系结构构件通信模型设计模式J2EE

移动自组网路由安全协议的研究

移动自组网是一种有特殊用途的对等式网络，具有无中心、自组织、可快速展开、可移动等特点，同时容易引发安全问题。本文主要研究移动自组网络中内部攻击对网络性能的影响以及安

学位

移动自组网网络安全路由协议安全协议声誉机制

三维地体数值拟合方法研究

随着计算机技术、遥感技术、地球物理学以及相关技术的飞速发展，地理信息系统已经在社会各行各业得到了广泛的应用。人们所生活的空间是三维的，但是现有的地理信息系统都是基于

学位

地理信息系统地理信息可视化科学计算三三次样条函数OpenGLVRMLJava 3D面向对象分析与设计标准模板库

Web服务安全性研究与扩展开发

Web Services(Web服务)是建立可互操作的分布式应用程序的新平台，它是一个应用程序，向外界提供能够通过Web进行调用的API接口。Web服务作为新一代分布式技术，它的松散耦合性、跨

学位

XMLSOAPWebServicesWS-Security加密/解密.NET

Web信息自动抽取技术的研究

其他学术论文