基于XML的Deep Web信息抽取系统的研究与初步实现

被引量 : 0次 | 上传用户:zdman
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅猛发展,越来越多的信息在网上发布,这给人们查询信息带来巨大便利的同时,也使得人们面对大量的信息不知所措,寻找一条自己想要的信息变得异常困难。为了更好的利用互联网资源,就必须从各种各样不同的网站上将相关的信息抽取出来,并存放到数据库中。这样,用户就可以使用结构化查询语言来快速准确的查询自己所要的信息。 目前标准的搜索引擎能够检索的仅仅是World Wide Web提供的小部分称为可索引的Web信息。大量的Deep Web信息(估计容量是可索引Web的500倍)对这些搜索引擎是不可见的,这些信息隐藏在Web页面的搜索表单后面,保存在大型的动态数据库中。为了方便获得这些信息,必须通过自动提交表单,并从反馈的网页中自动抽取相关信息,最后进行整合以统一的模式存入本地数据库中,从而方便用户查询。 自动提交表单并自动从反馈网页中抽取信息以实现对Deep Web信息的自动抽取是一个比较富有挑战性的课题,国外已对其进行了比较深入的研究和探讨,并提出了一些行之有效的方法,但到目前为止还没有比较成熟的产品投入商业应用。 为了实现对Deep Web信息的自动抽取,本文将JAVA和XML技术相结合,构建了一个自动提交表单并从反馈网页中自动抽取信息的框架模型。对于表单而言,本文先采用JAVA技术对html网页进行预处理,然后利用XSLT构建了一个分装器,从而实现了对html网页中表单的自动抽取工作,同时也使抽取的表单元素具有一定的语意,这为表单的完全自动提交提供了前提,为了验证对表单自动提交的有效性,本文采用穷举算法实现了对表单的模拟提交;对于html网页信息抽取而言,本文基于反馈网页的结构特点,先采用JAVA实现了对网页多记录信息块的定位和结构特点的分析工作,然后利用XSLT构建分装器实现对相应信息的自动抽取,整个抽取过程不需要人的干预。 最后,为了验证信息自动抽取框架模型的有效性,本文就六个图书查询网站,对整个抽取过程进行了抽取实验,并将抽取的数据以统一的模式存入本地数据库中。
其他文献
在翻转课堂教学模式基础上,我们提出了一种适合中学教育的师生合作教学新模式。这种教学模式根据中学生具有一定的自主学习能力,要求课前自主学习教师精心准备的纸质材料,课
以2009-2011年深市主板上市公司为研究对象,对内部审计部门设立情况及内部审计模式与内部审计质量之间的关系进行了实证检验,以审计意见为被解释变量,以内部审计模式和内审部
根据国家建筑节能验收规范要求,需对幕墙、门窗中所使用的玻璃的可见光透射比、遮阳系数、中空玻璃露点、传热系数等热工参数进行复验。主要介绍了玻璃热工性能的检测技术。
针对目前大部分摩擦磨损试验机实验形式单一,只能进行较为典型的摩擦磨损实验,不能模拟铲齿挖掘物料的实际摩擦工况等问题,研制了一种新型铲齿摩擦磨损试验机。通过采用由凸
目的:探讨幽门螺杆菌感染并发胃溃疡的临床治疗方法与效果。方法:选择幽门螺杆菌感染并发胃溃疡患者64例,根据治疗方法的不同分为治疗组与对照组,各32例。治疗组采用法莫替丁
目的:探讨幽门螺杆菌感染导致消化性溃疡的根除方案和效果。方法:根据治疗方法的不同将60例幽门螺杆菌感染导致消化性溃疡患者分为治疗组与对照组各30例,治疗组采用奥美拉唑
我国新一轮基础教育课程改革将实现国家、地方、学校三级管理的新课程管理模式,这引发了人们对校本课程的关注,开发和实施校本课程成为教育工作者面临的崭新课题。 本文从校
在上海建设世界著名旅游城市的背景下,为促进苏州河水上旅游功能的开发和进一步发挥苏州河水上航运功能,当下编制苏州河水上旅游码头布局规划非常必要。在学习国内外水上旅游
期刊
CAC