Web信息提取技术研究

来源 :西北工业大学 | 被引量 : 0次 | 上传用户:zyff1985
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息提取就是从大量的数据中检索出有用的信息。但一般的Web信息提取技术都是基于对Web上HTML文档的分析,本文提出了一种针对XML的信息提取技术。XML(eXtensible Markup Language)是用于描述在Internet网上用于数据交换的数据文档的格式的一种语言标准。它将结构、内容和表现分离。数据可被XML唯一标识,从而有利于用户对数据的组织和检索。 组件对象模型COM,是一种以组件为发布单位的对象模型,这种模型使各软件组件可以用一种统一的方式进行交互。COM除了具有面向对象的特性和客户/服务器特性这两个基本特性外,还有语言无关性、进程透明性和可重用性。COM作为一种软件模型,不仅提供了程序与程序之间通信的标准,而且可以改变传统的程序设计方法。 本文首先对XML技术的发展和特点做了论述,将它与HTML做了比较。接着阐述了COM的基本原理和COM的客户/服务模型,介绍了基于COM的组件化程序设计方法,将其与面向对象的程序设计方法进行了比较,并对COM技术的未来进行了展望。在以上理论的基础上,再加上ASP(Active Server Pages)技术,设计和实现了一个基于“ XML+COM+ASP”技术的一个应用系统。该系统可对XML数据文档进行分析和查询。本文描述了分析和查询XML数据文档的方式和算法,以及定制COM的结构,并在Windows NT Workstation上用Microsoft的IIS作为Web服务器,使用定制的COM,实现了一个XML文档分析查询器。 最后,本文对所定制的COM进行了分析,对所实现的系统的特点进行了阐述,指出了存在的问题,并提出了有待进一步探讨的问题。
其他文献
随着因特网和计算机技术的迅猛发展,电子商务、在线交易与分析、智能化的个性服务、企业的全球化管理、应用集成、服务集成等新业务需求的提出,需要在异构、分布的环境中完成各