Web页面结构相似性的算法研究及应用

来源 :复旦大学 | 被引量 : 0次 | 上传用户:guaodeshanying
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网页结构相似性的度量是Web信息处理中的一项重要任务,在数据抽取和搜索引擎等研究领域有着潜在的重要研究价值。好的相似性度量方法可以提高数据抽取的准确率和速度,还可以提高搜索引擎的速度、提高返回数据的质量、减少大量冗余数据占据的存储空间。实现该任务的已有算法往往存在着时间复杂度过高的问题。   通常,简单的DOM树模型可用于HTML文档建模,展现文档的结构信息模型。然而,DOM树只是把文档按照其结点的嵌套结构表示为树结构,它并不能够表达重复子树这样的结构信息。而重复子树这种内部结构信息对于web文档间的结构相似性度量是相当重要的。   为了解决这一问题,本文提出了一种称为“Tag-Bag树”的树模型。该模型使用Bag节点来表示树中的重复元素(重复元素在很多web应用中都非常重要),从而可以捕获半结构化文档的结构信息。基于Tag-Bag树模型,我们进一步提出CTM(Complex Tree Matching)算法来计算两棵Tag-Bag树的最大匹配作为它们之间结构相似度的度量。与现有的编辑距离计算算法相比,CTM算法不允许结点的替换和跨层匹配,从而具有较高的运行效率。此外,CTM算法的另一个优点在于它能够辨别一个页面中出现的单一重复模式(当这个模式可能在另一个页面中出现多次的时候)。最后,试验结果表明:本文所提出的方法不论在速度还是精度上都要优于著名的Bag of XPaths方法。
其他文献
近来,小体积、低成本、低功耗的无线传感器网络有了快速的发展。为了方便快速地开发无线传感器网络应用,无线传感器网络操作系统是必不可少的。无线传感器网络操作系统使得程序
近年来,越来越多的用户通过带有全球定位装置的手机等移动设备使用基于位置的服务(Location Based Service, LBS)。用户在享受服务的同时,对隐私和保密的需求是必不可少的。
随着经济发展、科技创新、信息时代到来,交通运输方式和生产工具产生巨大的变革,城市空间结构的演变形式也越来越复杂。从发展趋势看,城市空间结构演化的研究,有助于人们加深对中
视觉测量技术以计算机视觉为基础,融合了数学、光电子学,图像处理等多学科理论,是现代检测技术的核心之一,也是计算机视觉研究领域的热点问题之一。近年来,随着我国铁路的快
本文探讨了目前油气信息系统的开发模式和存在的问题,并简要介绍了工作流的技术特点,同时分析了工作流在油气信息管理系统中的研究和应用。在深入调研石油行业具体问题的基础上
本文在原有理论的基础上提出了基于能力的多Agent系统以及该系统的协进化算法,并把这些理论知识用到构建企业诊断智能化模型中。能力是一个BDI模型,封装了Agent完成任务所需
雾天环境中悬浮着大量的颗粒,这些颗粒会导致物体表面反射光的散射和吸收,从而导致雾天环境下拍摄的图像质量较差。近年来,国内外学者对均匀光照下的雾天图像复原技术进行了
人工智能是当前计算机研究的热点,被誉为二十世纪的重大科学技术成就之一,并将在新世纪的网络和经济时代发挥重要作用。作为计算机学科的重要分支,人工智能将渗透到应用计算
信息和知识是企业发展的一个非常重要的资源,信息/知识服务的主要功能是保证信息使用者全面、准确、及时、高效的获取和使用信息/知识。对于个人来说,良好的信息/知识服务能
随着网络技术的快速发展,Internet在日常的生活、学习和工作中发挥着越来越重要的作用。大多数企业和政府部门都通过Web服务器提供网页信息服务,由于Web服务器暴露在不安全的In