论文部分内容阅读
随着互联网的迅猛发展,越来越多的信息在网上发布,这给人们查询信息带来巨大便利的同时,也使得人们面对大量的信息不知所措,寻找一条自己想要的信息变得异常困难。为了更好的利用互联网资源,就必须从各种各样不同的网站上将相关的信息抽取出来,并存放到数据库中。这样,用户就可以使用结构化查询语言来快速准确的查询自己所要的信息。 目前标准的搜索引擎能够检索的仅仅是World Wide Web提供的小部分称为可索引的Web信息。大量的Deep Web信息(估计容量是可索引Web的500倍)对这些搜索引擎是不可见的,这些信息隐藏在Web页面的搜索表单后面,保存在大型的动态数据库中。为了方便获得这些信息,必须通过自动提交表单,并从反馈的网页中自动抽取相关信息,最后进行整合以统一的模式存入本地数据库中,从而方便用户查询。 自动提交表单并自动从反馈网页中抽取信息以实现对Deep Web信息的自动抽取是一个比较富有挑战性的课题,国外已对其进行了比较深入的研究和探讨,并提出了一些行之有效的方法,但到目前为止还没有比较成熟的产品投入商业应用。 为了实现对Deep Web信息的自动抽取,本文将JAVA和XML技术相结合,构建了一个自动提交表单并从反馈网页中自动抽取信息的框架模型。对于表单而言,本文先采用JAVA技术对html网页进行预处理,然后利用XSLT构建了一个分装器,从而实现了对html网页中表单的自动抽取工作,同时也使抽取的表单元素具有一定的语意,这为表单的完全自动提交提供了前提,为了验证对表单自动提交的有效性,本文采用穷举算法实现了对表单的模拟提交;对于html网页信息抽取而言,本文基于反馈网页的结构特点,先采用JAVA实现了对网页多记录信息块的定位和结构特点的分析工作,然后利用XSLT构建分装器实现对相应信息的自动抽取,整个抽取过程不需要人的干预。 最后,为了验证信息自动抽取框架模型的有效性,本文就六个图书查询网站,对整个抽取过程进行了抽取实验,并将抽取的数据以统一的模式存入本地数据库中。