一种网站数据抽取系统的设计与验证

来源 :复旦大学 | 被引量 : 0次 | 上传用户:sww0310818
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近十几年来,随着互联网的快速普及与发展,网上的应用越来越丰富,信息量更是呈指数级、爆炸式增长。互联网已经日益成为了人们获取信息的最重要的资源。然而,面对着如此海量的信息,人们想要获取真正感兴趣的信息也越来越难了。搜索引擎虽然可以帮助人们在浩如烟海的信息海洋中搜寻到自己所需要的信息。但是,传统的搜索引擎属于海量搜索,具有信息量大、查询不准确、深度不够等特点。对网上的许多非常有用的数据,例如电话黄页、产品目录、股票行情、工作信息、房源信息等,传统的搜索引擎将无能为力。 所以,本文设计了一个网站抽取系统,把来源分散的同一主题的数据自动抽取并整合后存放到关系数据库中。然后根据需要,将这些数据提供给不同的应用系统使用,就可以使用户很容易地获得他们真正需要的信息了。 本文中设计的系统是一个规则驱动的网站数据抽取平台,使用它进行数据抽取时,不需要对每一个具体的网站编写专门的程序。但需要针对每一个具体的网站定义不同的抽取规则。它要求用户首先选定并浏览样本页面,根据对页面内容的理解创建概念模式,即采用人工方式为样本页面附加语义信息;然后对样本页面中的样本记录进行标记,通过机器学习的方法形成信息抽取规则:最后,系统利用已形成的抽取规则对具有相似结构的网页实现信息抽取。 本文中设计的抽取系统的工作对象是包含大量关系型数据的网站,这些数据中的每一条记录都可以归结到“名称一属性”的集合的形式。针对可能的网站结构,本文归纳总结出了目录导航型和查询返回型两种基本网站结构,并分别从网站首页出发,导出了包含目标数据的最终页面的URL任务集。针对包含目标数据的各种不同网页布局,本文也提供了三种类型的抽取规则模板,基本可以实现对各种动态网页的数据抽取工作。
其他文献
随着多媒体技术的发展,数字多媒体信息的篡改变得非常容易。数字产品易篡改的特点降低了自身的可信度。因此,作为数字产品的内容真实性和完整性验证的重要手段,多媒体认证技术近
变长交换技术是指IP数据包不经过切割而直接通过交换结构进行交换。与定长交换相比,变长交换的实现相对要复杂,由于交换的信息单元颗粒大,控制时延变得复杂。但是与定长交换
本论文重点研究数字媒体信息隐藏技术的理论与方法.文中所研究的数字媒体主要指数字化的静态图像、非压缩域视频和压缩域视频.论文的主要研究内容与创新成果如下:1.回顾前人
数字视频监控系统,融合了计算机,多媒体,通信和网络等多项技术,在越来越多的领域发挥着重要的作用。数字视频监控系统的编码端,负责图象的采集和编码,是数字视频监控系统中的
射频识别(RFID)是一门多学科的领域,其内容包括电磁场、天线和数字通信等多个方面。国内RFID芯片设计处在起步阶段,而RFID芯片的应用将越来越广泛。本文通过对RFID的研究与芯片
在计算机和通信技术高速发展的今天,大容量的多媒体数据及大规模的多媒体数据库对数字视频技术的要求越来越强烈。作为快速浏览大容量视频数据的有效手段,数字视频摘要起着
传统的身份验证方法已经不能满足现代信息社会的要求,生物特征识别技术以其特有的安全性,可靠性和有效性等越来越受到人们的重视。人脸识别和指纹识别作为两种最常用和方便的
近年来,DDoS攻击已经成为了网络上广泛传播的问题。这种攻击方式利用网络中大量的傀儡机向受害机发送大量的无用分组包,耗尽受害机CPU资源或者网络带宽,给网络安全带来很大的威