论文部分内容阅读
随着网络的发展,因特网成为目前使用最广泛,规模最大的信息源,为了方便、高效的从网络上获取所需要的信息,人们广泛使用搜索引擎来进行信息搜索。然而搜素引擎搜索出来的信息都是分布在各种不同的页面中,为了更深层次的挖掘潜在的网页信息,信息抽取技术应运而生。通过信息抽取技术我们可以得到特定网站的信息满足用户的需求。开发人员可以进一步地将这些信息存储在数据库中,作为数据挖掘来使用,开发出更广泛的应用。因此,这一技术越来越成为研究人员关注的焦点。
Web信息抽取技术是从Web上大量的信息中得到数据对象间的内在关系,然后根据需要进行信息点的抽取工作。它的实现涉及到很多知识领域,其中包括计算机网络、人工智能、文本处理和归纳学习等。
本文首先介绍了Web信息抽取知识的相关背景和研究现状,分析了目前Web信息抽取中的各种技术方法,说明了本文信息抽取中需要用到的各种相关技术,其中包括HTML,XML,DOM,XSLT,XPath等。然后对现有的Web信息抽取体系中各种方法技术进行分析和研究,综合考虑各种技术的优缺点,设计了Web信息抽取总体模型。其中用较小的篇幅研究了主题精选算法和它在网络信息采集中的应用以及特征提取在信息抽取中的应用。
以具体页面为例进行详细分析,利用基于XML技术进行Web信息抽取,并对该方法的实现过程进行详细的介绍。本方法首先是对Web页面的HTML结构进行文档的预处理,接着对预处理后的页面进行DOM树解析,将其转换成XML的格式。然后通过对XML文档的优化处理,采用XPath路径表达式来实现具体页面信息点的定位,采用XSLT规则进行抽取。
根据以上的理论研究基础,文中结合具体网站实现信息抽取平台的设计开发,通过运行得到该网站的内容,并且以文件的形式存储在本地。该平台具有良好的可扩展性和可修改性。最后本文对一些以信息抽取为基础开发的应用进行了全面介绍,说明了信息抽取技术非常广阔的应用前景。