一种网站数据抽取系统的设计与验证

来源 :复旦大学 | 被引量 : 0次 | 上传用户：sww0310818

【摘要】

：

近十几年来，随着互联网的快速普及与发展，网上的应用越来越丰富，信息量更是呈指数级、爆炸式增长。互联网已经日益成为了人们获取信息的最重要的资源。然而，面对着如此海量的信息

【作者】

：

张绪国

【机构】

：

复旦大学

【出处】

：

复旦大学

【发表日期】

：

2006年期

【关键词】

：

数据抽取系统设计网站结构抽取规则模板动态网页

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近十几年来，随着互联网的快速普及与发展，网上的应用越来越丰富，信息量更是呈指数级、爆炸式增长。互联网已经日益成为了人们获取信息的最重要的资源。然而，面对着如此海量的信息，人们想要获取真正感兴趣的信息也越来越难了。搜索引擎虽然可以帮助人们在浩如烟海的信息海洋中搜寻到自己所需要的信息。但是，传统的搜索引擎属于海量搜索，具有信息量大、查询不准确、深度不够等特点。对网上的许多非常有用的数据，例如电话黄页、产品目录、股票行情、工作信息、房源信息等，传统的搜索引擎将无能为力。所以，本文设计了一个网站抽取系统，把来源分散的同一主题的数据自动抽取并整合后存放到关系数据库中。然后根据需要，将这些数据提供给不同的应用系统使用，就可以使用户很容易地获得他们真正需要的信息了。本文中设计的系统是一个规则驱动的网站数据抽取平台，使用它进行数据抽取时，不需要对每一个具体的网站编写专门的程序。但需要针对每一个具体的网站定义不同的抽取规则。它要求用户首先选定并浏览样本页面，根据对页面内容的理解创建概念模式，即采用人工方式为样本页面附加语义信息；然后对样本页面中的样本记录进行标记，通过机器学习的方法形成信息抽取规则：最后，系统利用已形成的抽取规则对具有相似结构的网页实现信息抽取。本文中设计的抽取系统的工作对象是包含大量关系型数据的网站，这些数据中的每一条记录都可以归结到“名称一属性”的集合的形式。针对可能的网站结构，本文归纳总结出了目录导航型和查询返回型两种基本网站结构，并分别从网站首页出发，导出了包含目标数据的最终页面的URL任务集。针对包含目标数据的各种不同网页布局，本文也提供了三种类型的抽取规则模板，基本可以实现对各种动态网页的数据抽取工作。

其他文献

基于大容量的USB KEY的图像认证系统

随着多媒体技术的发展，数字多媒体信息的篡改变得非常容易。数字产品易篡改的特点降低了自身的可信度。因此，作为数字产品的内容真实性和完整性验证的重要手段，多媒体认证技术近

学位

图像认证数字签名数字水印篡改检测

直接交换变长分组的交换结构研究

变长交换技术是指IP数据包不经过切割而直接通过交换结构进行交换。与定长交换相比,变长交换的实现相对要复杂,由于交换的信息单元颗粒大,控制时延变得复杂。但是与定长交换

学位

交换结构变长交换交叉连接矩阵差额轮循调度多级交换结构Benes结构分发算法

数字媒体信息隐藏理论与方法研究

本论文重点研究数字媒体信息隐藏技术的理论与方法.文中所研究的数字媒体主要指数字化的静态图像、非压缩域视频和压缩域视频.论文的主要研究内容与创新成果如下:1.回顾前人

学位

数字媒体信息安全信息隐藏图像置乱数字水印版权保护

16路数字视频监控编码端的设计与实现

数字视频监控系统,融合了计算机,多媒体,通信和网络等多项技术,在越来越多的领域发挥着重要的作用。数字视频监控系统的编码端,负责图象的采集和编码,是数字视频监控系统中的

学位

数字视频监控编码端X86平台Linux内核模块多线程程序

RFID系统的研究及芯片关键电路设计

射频识别(RFID)是一门多学科的领域，其内容包括电磁场、天线和数字通信等多个方面。国内RFID芯片设计处在起步阶段，而RFID芯片的应用将越来越广泛。本文通过对RFID的研究与芯片

学位

射频识别芯片电路芯片设计电感耦合

视频摘要及一种空时域结合的方法

在计算机和通信技术高速发展的今天，大容量的多媒体数据及大规模的多媒体数据库对数字视频技术的要求越来越强烈。作为快速浏览大容量视频数据的有效手段，数字视频摘要起着

学位

数字视频摘要代表性学习高斯混合模型GMM代表帧空域时域机器学习

人脸与指纹综合识别系统-识别技术的研究

传统的身份验证方法已经不能满足现代信息社会的要求,生物特征识别技术以其特有的安全性,可靠性和有效性等越来越受到人们的重视。人脸识别和指纹识别作为两种最常用和方便的

学位

多生物特征识别人脸识别支持向量机指纹识别

DDoS攻击对网络流量Hurst参数影响的研究

近年来，DDoS攻击已经成为了网络上广泛传播的问题。这种攻击方式利用网络中大量的傀儡机向受害机发送大量的无用分组包，耗尽受害机CPU资源或者网络带宽，给网络安全带来很大的威

学位

DDoS攻击自相似小波分析攻击检测网络流量Hurst参数网络安全

一种网站数据抽取系统的设计与验证

其他学术论文