基于多特征的Web页面分块算法的研究与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:dayoudian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,Web已成为人们获取信息的重要来源。为了满足人们不断增长的从互联网上获取信息的需求,Web信息抽取技术不可避免地成为当今研究的技术热点。由于互联网上的Web页面往往具有多样性、不规范性、包含信息复杂以及半结构化等特性,这些特性为Web信息抽取技术带来了很大的困难。如何使Web信息抽取技术不受Web页面特性影响而具有通用性,并能精确地抽取页面信息成为Web信息抽取技术亟待解决的问题。   在对复杂的Web页面进行信息抽取的过程中,Web页面分块技术成为目前研究的一个方向。然而,目前的Web页面分块算法多数利用单一特征信息对Web页面进行分块,不能很好地应对复杂多变的Web页面类型。针对这种情况,本文提出了基于多特征的Web页面分块算法,该算法先将Web页面分成若干个相互独立的语义块,再根据应用的需要,从中选取具有相应语义特征的语义块进行信息抽取。本文首先分析了Web页面中的布局特征、显示特征、语义特征和文档结构特征等多特征信息,建立了基于多特征的Web页面语义块模型。在此基础上,本文提出了基于多特征的Web页面分块算法MFPS,并阐述了MFPS分块算法的基本思想和执行过程。然后,本文重点阐述了MFPS分块算法的实现,其中分析并解决了相似块识别的问题,阐述了包括单行类型、多行类型、多块类型、行块交替类型等类型的结点序列的合并方法,给出了包括语义类型、分割类型、多特征信息的识别方法,给出了MFPS分块算法的形式化描述,并对MFPS分块算法的性能做了分析。最后,本文提出了以MFPS分块算法为基础的基于块的重要度的页面类型识别算法PTIBID,该方法通过分析MFPS分块算法得到的语义块结构及多特征信息,能够有效地识别页面类型并抽取出其中的信息属性,以满足实际Web信息抽取的需要。实验结果表明,与现有的分块算法相比,MFPS分块算法具有分块精度较高、分块结构较为合理、适应能力较强等特点,可以为Web信息抽取技术提供有效的支持。
其他文献
随着计算机网络的快速发展和安全性分析方法研究的深入,基于安全评估模型的评估方法被不断提出。网络攻击图是分析网络安全性的一个重要手段。对网络安全策略的制定具有重要
随着网络带宽的增长和图像技术的发展,Web上图像资源变得越来越丰富,形成一个海量的图像资源库。Web图像检索致力于解决从这个海量的图像资源库中,帮助用户快速地、准确地检
目前我国各高校普遍采用学分制或带有过渡性质的学年学分制管理。选课制作为学分制的灵魂,需要有与之相适应的选课管理系统加以辅助。教学管理同样也需要根据学校的资源情况、
随着多媒体技术和网络技术的飞速发展和广泛应用,对图像、音频、视频等内容的知识产权保护成为迫切需要解决的问题。加密和拷贝保护机制不能完全解决这一问题:加密只在传输过
在计算机信息网络技术的促进下,集散控制系统DCS的全范围仿真正在向所谓“虚拟”技术方向发展。在火力发电仿真平台的设计开发中,虚拟DCS技术以接近激励DCS的逼真度、接近仿
随着计算机科学的发展,人脸识别技术受到越来越多的重视。今年来,在本领域中出现了一些新的方法和工具,其中最具有实用价值的就是Intel提出的AdaBoost算法。本文对此算法进行
近年来网络技术和通信技术得到了快速发展,同时家电设备的网络化和智能化的需求越来越大。传统家电设备只能通过设备上的控制面板进行控制,这种控制方式在空间上有很大的限制;而
随着Internet高速发展,信息量呈现爆炸式增长,大量多媒体被应用到我们的经济、社会、教育、通信、医疗、咨询服务和日常生活中。但是,面对信息量的迅速增长,传统的多媒体管理
近几年来,虚拟现实技术的应用与研究得到了迅速的发展,在许多领域都具有广泛的应用前景,虚拟现实技术日渐成为计算机应用技术发展的主要研究方向之一。通常传统的工业钢结构
机器学习的核心目标之一是让机器具有像智能生物一样的自主学习的能力。时至今日,机器学习已经成为人工智能领域的核心研究内容,其应用遍及人工智能的各研究方向,包括专家系