Web信息提取技术研究

论文部分内容阅读

信息提取就是从大量的数据中检索出有用的信息。但一般的Web信息提取技术都是基于对Web上HTML文档的分析，本文提出了一种针对XML的信息提取技术。XML（eXtensible Markup Language）是用于描述在Internet网上用于数据交换的数据文档的格式的一种语言标准。它将结构、内容和表现分离。数据可被XML唯一标识，从而有利于用户对数据的组织和检索。组件对象模型COM，是一种以组件为发布单位的对象模型，这种模型使各软件组件可以用一种统一的方式进行交互。COM除了具有面向对象的特性和客户/服务器特性这两个基本特性外，还有语言无关性、进程透明性和可重用性。COM作为一种软件模型，不仅提供了程序与程序之间通信的标准，而且可以改变传统的程序设计方法。本文首先对XML技术的发展和特点做了论述，将它与HTML做了比较。接着阐述了COM的基本原理和COM的客户/服务模型，介绍了基于COM的组件化程序设计方法，将其与面向对象的程序设计方法进行了比较，并对COM技术的未来进行了展望。在以上理论的基础上，再加上ASP（Active Server Pages）技术，设计和实现了一个基于“ XML＋COM＋ASP”技术的一个应用系统。该系统可对XML数据文档进行分析和查询。本文描述了分析和查询XML数据文档的方式和算法，以及定制COM的结构，并在Windows NT Workstation上用Microsoft的IIS作为Web服务器，使用定制的COM，实现了一个XML文档分析查询器。最后，本文对所定制的COM进行了分析，对所实现的系统的特点进行了阐述，指出了存在的问题，并提出了有待进一步探讨的问题。

其他学术论文