基于树形结构的Web信息抽取技术研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:lynxmao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的快速发展,Web已经发展成为一个巨大的、分布式的和共享的信息资源。目前Web数据大都以HTML页面的形式出现。由于HTML描述的数据是一种半结构化的数据,这使得由HTML描述的Web页面只适合人类的浏览,应用程序无法直接解析并利用Web上的丰富信息。为了增强Web数据的可用性,提供更多的增值服务,出现了Web信息抽取技术。它通过包装(wrapper)现有的Web信息源,将网页上的信息以结构化的方式抽取出来,为应用程序利用Web中的数据提供了可能,因此有着广阔的前景,是当今数据库领域的研究热点之一。本文首先对Web信息抽取的一些基本概念做了简要介绍,并简述了Web信息抽取技术的产生和发展。在此基础上,给出了适用于本文算法的Web页面的定义。其次详细介绍了当前Web信息抽取技术的一些常用方法,并对这些方法进行分类,进而对这些方法进行对比分析,指出各种方法的优缺点。在分析了多种方法的基础上,讨论了未来Web信息抽取技术研究发展的方向。最后,提出了一种基于树形结构的Web结构化数据抽取算法。该算法基于HTML的树形层次结构,包括HTML树构造算法,数据区域挖掘算法,数据记录挖掘算法,以及数据记录模式生成算法。本算法引入了页面元素布局位置等信息用于清洗页面,采用层次划分思想实现页面数据区域的挖掘,并通过树匹配生成记录模式,实现最终数据项抽取。通过理论分析和实验表明,该方法可以有效地实现Web结构化数据抽取。
其他文献
为了应对信息爆炸带来的挑战,人们迫切需要一些自动化的工具在海量信息源中迅速定位到真正需要的信息。在这样的情况下,信息抽取技术应运而生。目前大部分的Web信息抽取方法
基因表达水平是衡量基因功能活动的重要指标。基因表达的信息是理解基因功能和基因调控的潜在机制的一个重要线索。基因芯片(微阵列)具有在单一的实验中并行地检测任何细胞或组
随着Internet规模的迅速扩张,网络应用得到飞速发展与壮大,随之而来的是网络遭受着越来越多的安全威胁。网络信息安全已经影响到生活、经济甚至是国家安全。因此,网络安全设
图像处理与分析是信息科学与工程中的一个主要研究领域。在图像的生成、传输与通信的过程中经常会伴有随机的脉冲干扰和其它的噪声,这将使图像的质量变差。图像去噪很自然的
空间数据挖掘是指从大量的、不完全的、有噪声的、模糊的空间数据中提取出隐含在其中的、人们事先不知道的但又潜在有用的知识的半自动化方法,它是解决“空间数据丰富、但信
软件重构是现在计算机软件开发与维护中的一门重要的技术,它主要应用在应用期系统的维护和进一步扩展上,用于改善应用期软件系统的原始设计,以及提高软件系统代码的质量。NOR
随着网络的普及和在各个领域的广泛应用,基于网络的考试已经成为教育领域内备受关注的研究课题。本文通过深入调查分析,从网络考试系统的设计原则和网络考试的特点出发,提出
随着计算机网络技术的高速发展和不断完善,企业的信息化建设也得到空前的快速发展,企业的各种应用软件如MIS、ERP、CRM等正在企业生产过程中发挥着重要的作用。但各种信息技
在无线网络应用中,容量常常作为评测无线网络性能的重要标准,因此容量研究成为研究无线网络的重要方向。然而无线网络的容量存在一个根本性的难题,即网络容量的拓展性问题。
随着信息技术和计算机网络的飞速发展,多媒体数据的传输与共享变的日益普遍。然而快捷、准确、相对便宜的数字传输手段在为人们带来无限机遇的同时,也导致了数字产品的非法拷