基于网格的Web信息抽取技术的研究与实现

来源 :苏州大学 | 被引量 : 0次 | 上传用户:fgjfg111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web文档往往用各种复杂的HTML标记来包装内部数据,但这种方式给应用系统直接使用Web文档中的数据带来了困难。Web信息抽取是处理海量数据且需要各种复杂算法支持的一种技术,因此它在一般平台上的工作效率不是很好。网格能为复杂应用提供分布式并行环境,它面向服务的开放式结构能提高应用的灵活性和代码重用率。因此,结合网格技术来开发一个自动的Web信息抽取应用有着非常重要的意义。 本文首先介绍了Web信息抽取的有关技术,分析了自动抽取系统RoadRunner的算法和优缺点;接着,介绍了网格的相关知识,重点研究网格应用的特性。在这之后,本文重点解决两个问题:如何自动抽取Web信息和如何在网格中实现。在第一阶段,本文通过有效的启发规则解决自动获取一批相似页面的问题,提出并实现了二级页面噪声处理的方案和算法,完成了自动归纳抽取规则的算法,并最终实现了一个完整的面向数据密集型页面的Web信息抽取系统。在第二阶段,本文首先分析了Web抽取应用的可并行化部分,给出了相应的网格应用模型和编程模式,安装和配置了网格平台,开发和部署了一组相应的服务,并最终结合Java多线程技术解决了抽取应用的并行化问题。 本课题主要有两方面的意义:从Web信息抽取方面来看,能提高抽取系统的自动化程度和数据抽取精度;从网格应用方面来看,通过Java线程和网格服务相结合的方式能有效改善传统应用的运行效率,并为网格应用开发提供了一种新的实现思路。
其他文献
随着全球计算机互联网络用户覆盖范围和信息传输量的迅速发展,各类网络应用也日益增多。人们的社会活动和经济活动越来越依赖于计算机网络,因而网络的安全性已成为信息化建设
人脸检测是人脸自动识别系统的重要组成部分,检测精度直接影响着人脸识别的性能。近几年来,随着多功能感知研究的兴起,人脸检测问题开始在国际上引起关注,并已逐渐发展成为一个相
众所周知,网络管理系统在管理复杂网络,提高网络设备利用率方面起着关键作用。随着网络的发展,新一代网络管理已经朝着可视化和智能化发展,网络拓扑自动发现是网络管理图形化
本文主要研究了支持多种依赖注射方式的轻量级IoC(MTIoC)容器的设计问题,其目的是减小容器中组件间的耦合度,缩短程序开发的周期,以便于组件的重用,构建清晰、简洁的解决方案
行人检测技术是目前机器视觉方面研究的热点之一,已经被广泛应用在智能辅助驾驶、智能机器人、行人行为识别等方面。通过近些年来的不懈研究,科研人员们提出了一系列的基于统
随着计算机和通信技术的不断发展,通过在一个公共分组网络中承载话音、数据和视频已经被越来越多的运营商和设备制造商所认同。在这样的业务驱动和网络融合的趋势下,诞生了下
本文为了使嵌入式系统能比较方便地进行互连通信,分析总结了一种实用的互连协议。此互连协议是一个分层协议,称之为ESCP(EmbeddedSystemCommunicationProtocol)。ESCP网络的主
图像是人类获取信息的重要内容,大量而清晰的图像对人们的日常生活、科学研究都有着十分重要的作用。但图像在形成、传输和记录的过程中都会受到诸多因素的影响,所以人类通过
随着计算机网络技术的发展,XML作为Web上一种新的数据发布语言,将成为Web上下一代“数据表达”和“数据交换”的统一标准。然而,时间是自然界无所不在的客观属性,所有信息都具有
电子信息的增长使得人们无法快速地找到自己真正感兴趣的内容。为了更好的组织和管理信息,研究者们引入了文本分类、特别是层次型文本分类技术。相对于层次型文本分类中的爆