论文部分内容阅读
随着互联网时代的来临,Web已经成为世界上最大的信息源,给人们生活带来了极大的方便。但是Web在给人们提供丰富信息的同时,又使人们在对它们的有效使用方面面临一个巨大的挑战。一方面网上的信息多种多样、丰富多彩,另一方面用户却找不到他们所需要的信息。为了更好的使用Web上的信息,人们不断研究能够有效组织和利用网上信息的技术。然而,Web文档不像传统的文本那样整齐、干净,其中包含大量噪音内容,例如为了增强用户交互性而加入的脚本,为了便于用户浏览而加入的导航链接,以及出于商业因素所加入的广告链接等。这些噪音内容往往和网页的主题不相关,在网页分类、信息检索等Web应用中,如果不去除这些噪音内容,不仅降低信息处理程序的执行速度,还将影响分类和检索的准确度。比如在信息检索时,可能仅仅因为某一页面广告信息中包含用户所查找的关键字而将该页面返回给用户。因此,快速准确地提取从网页的主题内容和主题相关内容已经成为Web信息处理系统预处理环节中一个必不可少的环节。本文在网页内容提取方面主要做了以下几点研究:(1)提出了并实现了一种主题型页面识别算法,该算法利用主题型页面的多个特征,首先通过启发式规则过滤,然后再通过分类器对不能识别网页进一步分类,实验证明了该算法具有较好的识别效果。(2)针对以往网页分块算法只使用一种线索的不足,提出并实现了基于多线索的网页分块算法,该算法综合利用了标签线索,视觉线索和文本线索,对网页进行分块,生成语义块树结构,并保留语义块的视觉信息等,方便后序利用。通过实验证明和现有分块算法相比,本文提出的算法提高了分块准确率,并且更为鲁棒,适用范围更广。(3)总结了网页内容块的主要特征,提出并实现了一种基于组合特征的主题内容块识别算法,该算法将基于文字特征识别的算法和基于布局特征识别的算法组合起来。基于文本特征识别算法偏重于语义块内部的文字内容,而基于布局特征的算法反映的是语义块内部的结构信息。两个算法组合起来使用,最后识别出的主题块既能反映其文本的重要性,又能反映其内部结构的重要性,防止了使用单个特征可能导致的偏差,提高了网页主题内容信息提取的准确率和召回率。(4)在网页相关内容提取方面,通过使用启发式规则,实现了相关链接提取算法和相关图片提取算法。