基于页面分块的网页内容提取的研究与实现

来源 :武汉理工大学 | 被引量 : 10次 | 上传用户:a3392919
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网时代的来临,Web已经成为世界上最大的信息源,给人们生活带来了极大的方便。但是Web在给人们提供丰富信息的同时,又使人们在对它们的有效使用方面面临一个巨大的挑战。一方面网上的信息多种多样、丰富多彩,另一方面用户却找不到他们所需要的信息。为了更好的使用Web上的信息,人们不断研究能够有效组织和利用网上信息的技术。然而,Web文档不像传统的文本那样整齐、干净,其中包含大量噪音内容,例如为了增强用户交互性而加入的脚本,为了便于用户浏览而加入的导航链接,以及出于商业因素所加入的广告链接等。这些噪音内容往往和网页的主题不相关,在网页分类、信息检索等Web应用中,如果不去除这些噪音内容,不仅降低信息处理程序的执行速度,还将影响分类和检索的准确度。比如在信息检索时,可能仅仅因为某一页面广告信息中包含用户所查找的关键字而将该页面返回给用户。因此,快速准确地提取从网页的主题内容和主题相关内容已经成为Web信息处理系统预处理环节中一个必不可少的环节。本文在网页内容提取方面主要做了以下几点研究:(1)提出了并实现了一种主题型页面识别算法,该算法利用主题型页面的多个特征,首先通过启发式规则过滤,然后再通过分类器对不能识别网页进一步分类,实验证明了该算法具有较好的识别效果。(2)针对以往网页分块算法只使用一种线索的不足,提出并实现了基于多线索的网页分块算法,该算法综合利用了标签线索,视觉线索和文本线索,对网页进行分块,生成语义块树结构,并保留语义块的视觉信息等,方便后序利用。通过实验证明和现有分块算法相比,本文提出的算法提高了分块准确率,并且更为鲁棒,适用范围更广。(3)总结了网页内容块的主要特征,提出并实现了一种基于组合特征的主题内容块识别算法,该算法将基于文字特征识别的算法和基于布局特征识别的算法组合起来。基于文本特征识别算法偏重于语义块内部的文字内容,而基于布局特征的算法反映的是语义块内部的结构信息。两个算法组合起来使用,最后识别出的主题块既能反映其文本的重要性,又能反映其内部结构的重要性,防止了使用单个特征可能导致的偏差,提高了网页主题内容信息提取的准确率和召回率。(4)在网页相关内容提取方面,通过使用启发式规则,实现了相关链接提取算法和相关图片提取算法。
其他文献
随着移动互联应用的深入和普及,宽带移动数据通信迅速发展,LDPC码在高效性与稳定性上的突出表现,成为目前移动通信的首选方案。在信息传输过程中,译码工作量成为制约通信速度
大学宿舍是学生求学期间居住的一个家,只有这个家安全舒适了,才能为学生营造一个良好的生活学习环境,才能使学生的求学生涯更加美好。ZigBee技术是最近发展起来的一种近距离
随着智能小区在我国的普及和发展,传统的相互独立和分离的小区各子系统渐渐暴露出种种弊端,已经不能满足人们日益增长的服务需求,人们寻求一种能够集传统小区中各子系统功能
软件过程的度量,是预测和评估软件开发过程是否有效的依据,也是软件过程改进与控制中不可忽视的一项工作。CMMI是一个成功的、被广泛使用的软件过程改进模型,为实施软件度量
高效可靠的路面裂纹自动检测与识别系统对交通安全具有重大意义,而传统的道路检测技术已无法满足实时性与高效性要求,故设计一种高水平的路面裂纹自动检测与识别系统成为目前
随着数据库技术的发展,越来越多的行业的建立了自己的数据库系统。随着企业的不断扩张及管理信息的不断完善,企业数据库往往需要管理几百G甚至几T的数据量。随着数据库数据量的
随着电脑的普及,网络技术的发展,目前各种类型的考试都逐渐采用计算机出题,并且随着网络时代的到来和迅速发展,用计算机进行在线考试已经成为了一种不可逆转的趋势。网络考试
软件测试是提高软件可靠性和保证软件正确性最基本和最重要的手段,而测试用例的设计又是软件测试的核心,是软件测试质量的根本保障。随着软件系统规模的日益扩大和应用领域的
三维人体建模技术一直是国内外众多学者研究的热点。不同应用领域对人体模型的创建要求各不相同。如何快速创建个性化人体模型也就成为建模的关键和研究的重点。针对上面的问
本文提出了一种灵活的处理分析多文件程序评分的方法,这种评分方法在自动评分系统中使用动态和静态实现方式。静态和动态评分都可以分析使用多个程序文件来解决一个编程问题的