动态网页信息抽取技术的研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:agz100
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet的飞速发展使其成为日益重要和最具潜力的资源。WWW作为一种新的信息资源,为计算机领域新技术的产生开辟了新的领域,同时也为传统技术的研究提出了新的方向。 研究表明,目前Web上的页面主要是以动态页面的形式存在(占总数的80%以上),即用户在调用页面时临时通过程序动态生成的页面。动态页面使用固定的显示模板,然后将后台数据库中的数据嵌入而得。这些数据经过专业人员组织整理,因而具有更高的价值。本文重点研究动态页面的抽取技术,它的主要挑战在于以下几点:(1)动态页面表示形式千变万化,如何从多样的动态页面中有效的定位网页信息。(2)用户需要从动态网页中抽取的信息内容可能多种多样,如何精确的表示不同用户所定义的不同的抽取请求。 本文重点研究了动态网页抽取技术。通过深入分析动态网页抽取技术中的关键和难点以及己实现系统的特点与不足,本人在研究获得的算法基础上设计了一个基于树模型和Wrapper技术的动态网页抽取系统。主要的研究和成果如下: 1. 针对动态网页按信息结构的不同进行了分类定义。将动态网页分为多记录项动态网页和单记录项动态网页。 2. 针对多记录动态网页,提出一种新的基于树模型的信息抽取算法——DETM。它充分利用了HTML的树型结构,运用树编辑距离模型和树归并算法来定位和抽取网页信息。 3. 针对单记录动态网页,提出一种基于用户自定义模板的信息抽取算法。它利用模板自动生成技术较好的解决了单记录动态网页信息项定位比较困难这个难题,将网页结构信息使用XML文档的形式表示。 4. 基于上述的对动态网页的两种分类定义和各自的抽取算法,使用java在开源项目QUIOTIX的基础上,实现了一个动态网页的抽取系统。它能对各类动态网页实现自动抽取,生成以XML结构化文档为表现方式的抽取结果。实验表明,该动态网页抽取系统对于单记录项网页抽取精度达到85%,对于多记录项网页的抽取精度达到97%。
其他文献
下一代网络是一个能够提供包括语音、视频、图像和数据等多种业务在内的综合开放网络。以软交换技术为核心的下一代网络已经成为目前国内外网络界的研究热点之一。 软交换
随着科技的进步,科学研究与工程实践中出现的优化问题也变得越来越复杂,传统优化方法在解决这些问题时,存在计算复杂度过高的局限。因此,计算机科学家们提出了许多模拟物理现象,或
随着计算机和网络技术的快速发展以及应用程度的不断提高,计算机网络安全已成为经济发展的关键,同时也是国防安全的重要组成部分。对入侵和攻击行为的检测与防范,保障计算机系统
支持向量机作为近十年来最为成功的机器学习方法,在很多应用领域取得了很好的成绩,包括文本分类,手写字符的识别,人脸识别等等。它和其他机器学习方法最大的不同在于,它遵循了统计
本文对自动指纹识别的若干技术进行了探讨,综合运用图像处理、模式识别、计算机应用等理论和技术较为深入的研究了指纹奇异点提取、指纹分类和指纹图像细化等问题。全文共分
图像颜色复原,主要是给灰度图像或者黑白图像添加色彩的处理过程。颜色复原后的图像既要保持灰度图像的形状信息,又要具有合理的色彩信息。颜色复原技术增加了图像处理的艺术
随着无线传感器网络在军事、民用等领域的广泛应用,无线传感器网络中的数据可靠传输成为了研究热点。传统加密机制无法解决无线传感器网络中破坏数据可靠传输的内部攻击,可信机
本文研究讨论了一种全新的位基服务算法,从数据挖掘的角度看待LBS问题。这样解决了原来依靠移动运营商基站或者GPS的方案在某些场景下低效或者完全无法工作的问题。所有应用这
电信专题分析(又称决策分析)为解决特定的问题而提出,是一个为特定问题组织数据,挖掘信息的过程。在电信专题分析系统领域,一方面由于起步比较晚,一方面由于决策分析发展迅速而导
随着近年来Internet的爆炸性增长,其安全性问题日益突出。IPSec(IP security)是在IP层实现数据通讯安全的协议,在IP层实现的主要优点有:1)高层的安全技术仅仅保护单个高层协议,而I