【摘 要】
:
随着互联网的发展,网络成为人们获取自己需要的信息的重要途径,Web信息抽取是一种可以从Web页面信息中抽取出结构化的信息的技术,为人们从浩瀚如海的internet网上获取信息提
论文部分内容阅读
随着互联网的发展,网络成为人们获取自己需要的信息的重要途径,Web信息抽取是一种可以从Web页面信息中抽取出结构化的信息的技术,为人们从浩瀚如海的internet网上获取信息提供了便利,包装器技术就是其中的一种。然而现在Web页面上的信息变得越来越密集,一个页面可能会提供具有不同含义的数据块信息,这种页面被称作多个信息块Web页面。在以往的Web信息抽取技术中,包装器大部分针对只含有一个信息块的Web页面,而不适用于这种多个信息块Web页面。因此针对以往包装器的适应性缺点,本文提出了一种对应信息块的子树模型的表示方法,在这个子树模型的基础上提出了一种基于树模型的多包装器生成算法,并设计了基于树模型的多包装器信息抽取系统。基于树模型的多包装器信息抽取系统首先将多信息块Web页面解析为DOM树,然后通过一种基于DOM树的页面分块方法将多信息块Web页面分块形成多个子树模型,每个信息块均对应一个子树模型,提出一种KEY-SubTree的表示方法用来表示子树模型,为每个子树模型赋予KEY-Value值用来区分彼此,因此可以根据KEY-Value值划分形成以KEY-Value值为区别关键词的KEY-SubTree集合。最后在多包装器生成过程中,根据Tree-align算法的思想提出一种基于树模型的多包装器生成算法——Multi-wrapper算法,并用它以KEY-SubTree集合为对象生成各个信息块对应的包装器,使得页面中的每个信息块对应一个包装器,生成了多个包装器。将这多个包装器放入一个包装器集合中,以KEY-Value值作为区别关键词来区分每个包装器。设计信息抽取实验,将基于树模型的多包装器信息抽取方法和另外两种多信息块Web页面的信息抽取方法进行比较,基于树模型的多包装器信息抽取方法在准确率和召回率上都有了很大的提高。通过KEY-SubTree中的KEY-Value值来选择包装器来抽取信息块的结构化信息时,抽取效率也非常高。
其他文献
智能规划与规划识别是目前人工智能研究的热点领域之一。以规划图为基础的研究方法是这一领域最突出的研究方法之一,它的研究技术应用广泛。在许多实际的应用中,如辅助教学、
智能规划和规划识别是近年来人工智能领域的研究热点,它的应用广泛,囊括了航空航天、人机交互、自然语言理解、军事等许多领域。多年来,国内外许多优秀学者一直致力于智能规
在分布式环境下,传统证书验证模式把证书的路径构建与路径验证两部分工作交给客户端来完成存在诸多不足。一、会降低PKI应用程序的工作效率。二、降低对用户的透明性。三、客
医学图解被广泛认为是一种表现显著的解剖结构特征,同时隐藏无关的其他细节的有效途径。本文对如何利用现有的医学成像技术促进肌肉的体建模和体图解这个具有挑战性的问题提
本文研究基于人工鱼的全局优化文化算法及其在物流配送中心选址中的应用,其工程背景是复杂的连续性设施选址问题。配送中心选址问题从数学模型上看,属于多源Weber问题,具有NP
无线传感器网络由大量传感器节点组成,被广泛用于监测周围环境信息。目标跟踪是无线传感器网络中的重要应用,其主要目的是通过节点来监测目标的实时状态。传统的固定传感器网
随着信息技术在日常工作和生活中发挥着越来越重要的作用,网络安全问题也逐渐开始成为社会中极需要关注的问题之一。根据研究发现,系统漏洞对系统安全性具有重要影响。大部分的
随着互联网的快速发展,网络安全问题日益严重,各种攻击层出不穷。拒绝服务攻击、匿名通信等给追踪攻击源、定位真实攻击流、网络监管带来巨大威胁和挑战。而网络流水印作为一
随着内网主机安全事件的频繁发生,如何防止内网资源的误用、滥用和恶用已经成为亟待解决的问题。主机的安全事件主要是由内部人员的不合法操作导致的,具有威胁大、难防御、难
信息技术和网络技术的迅猛发展为企业间制造资源的有效集成和优化配置提供了有力的技术支撑,从而使得制造企业在应对全球化经济竞争时,能够高效地集成优势资源,快速响应市场需求,这对于企业赢得市场竞争具有举足轻重的战略意义。为弥补资源管理方式的不足、实现资源的快速整合和共享,协同制造应运而生。协同制造环境中,业务过程一般都是跨组织的,通过工作流之间的交互实现任务的协同,但资源之间的依赖关系,作为一种约束,其