论文部分内容阅读
信息提取就是从大量的数据中检索出有用的信息。但一般的Web信息提取技术都是基于对Web上HTML文档的分析,本文提出了一种针对XML的信息提取技术。XML(eXtensible Markup Language)是用于描述在Internet网上用于数据交换的数据文档的格式的一种语言标准。它将结构、内容和表现分离。数据可被XML唯一标识,从而有利于用户对数据的组织和检索。 组件对象模型COM,是一种以组件为发布单位的对象模型,这种模型使各软件组件可以用一种统一的方式进行交互。COM除了具有面向对象的特性和客户/服务器特性这两个基本特性外,还有语言无关性、进程透明性和可重用性。COM作为一种软件模型,不仅提供了程序与程序之间通信的标准,而且可以改变传统的程序设计方法。 本文首先对XML技术的发展和特点做了论述,将它与HTML做了比较。接着阐述了COM的基本原理和COM的客户/服务模型,介绍了基于COM的组件化程序设计方法,将其与面向对象的程序设计方法进行了比较,并对COM技术的未来进行了展望。在以上理论的基础上,再加上ASP(Active Server Pages)技术,设计和实现了一个基于“ XML+COM+ASP”技术的一个应用系统。该系统可对XML数据文档进行分析和查询。本文描述了分析和查询XML数据文档的方式和算法,以及定制COM的结构,并在Windows NT Workstation上用Microsoft的IIS作为Web服务器,使用定制的COM,实现了一个XML文档分析查询器。 最后,本文对所定制的COM进行了分析,对所实现的系统的特点进行了阐述,指出了存在的问题,并提出了有待进一步探讨的问题。