论文部分内容阅读
Web已经成为世界上最大,类型最齐全的海量信息库。面对不断增长的网页数据,急需解决的问题是如何获取其中有价值的信息或者是所感兴趣的信息。Web最常用的描述语言是HTML,这种方式呈现的页面大都是结构化或半结构化,数据由数据库提供,网站动态生成,同一模板的网页的主题信息提取方式大致相同。针对这种Web页面的特点,本文提出了一种基于网页结构聚类的Web信息提取方法,并设计了基于该方法的原型系统。系统能够将网页按照结构的相似性分类,并且可以方便快捷的生成同类网页提取规则,依靠生成的规则能准确提取结构相似网页的信息。系统分为3个模块:(1)网页下载模块,实现高效的网络爬虫采集网页;(2)规则学习模块,将网页聚类,对不同类网页生成不同提取规则;(3)信息提取模块,按照网页所属类别使用相应的提取规则提取网页信息。本文首先研究了网页的结构,并用DOM (Document Object Model)模型将网页表示成树形结构。基于网页的树形结构,分析了网页结构的相似性计算方法。提出了一种改进的基于树路径匹配的网页结构相似度计算方法,并且比较了该算法与树编辑距离和树路径匹配算法的优劣。对网页聚类采用层次聚类算法,在网页结构相似度的基础上,对网页按结构进行归类。然后,研究网络爬虫技术和网页预处理技术包括网页DOM模型、网页清洗、和网页结构图形化显示。最后,研究了提取规则的表示方法,采用XPath来定位代提取节点和XSLT来描述提取规则。本文以多个动态网站的网页作为数据集,通过实验证明了网页结构聚类的准确率和本文的信息提取方法的高精度。