基于加权层次子树的XML文档相似度计算

来源 :天津工业大学 | 被引量 : 0次 | 上传用户:weibo525525888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来,随着社会信息化进程的不断深入发展,人类对信息的需求和依赖程度越来越高,如何从海量的信息资源中快速有效的获取有用的信息,已经成为研究的热点,这也给信息检索带来了极大的挑战。随着互联网的发展XML凭借其自身具有的结构化、可扩展、自描述等特点已经成为互联网上数据存储和数据交换的标准。   文档相似度的计算是文档检索、挖掘和深层次智能处理的基础,因此对相似度计算进行研究具有非常重要的意义,可以说文档相似度的计算直接影响了最后的检索结果。如果文档相似度的计算结果高效准确,那么检索结果就能达到用户的期望值。反之,如果文档相似度的计算结果不准确,查询过程的查全率和查准率就会受到很大的影响,最后用户就会检索不到自己想要的结果。   本文首先介绍了树编辑距离模型和频繁路径模型以及基于它们的相似度计算,综合这两种模型的优缺点,提出了一种针对XML文档结构聚类的模型——加权层次子树模型,并提出了基于加权层次子树模型的文档相似度计算方法,加权层次子树模型很好的表示了XML文档的层次关系和层次信息,通过消除重复元素和重复表达式,用更加简洁的表达式表示出XML文档的层次和元素信息,并基于此方法对XML文档进行了聚类分析。此相似度计算方法能将问题有效地简化,从而降低了解决问题的复杂度。这种算法能快速、准确分辨出具有相同结构的XML文档。   本文基于加权层次子树模型,提出了加权层次子树模型的相似度计算方法,首先考虑了元素的语义信息,将XML文档的元素语义信息纳入计算中,通过对语义信息的考虑,更加精确了相似度计算,从而达到很好的聚类效果。其次,在XML文档相似度计算中,考虑到了层次的权重问题,靠近根节点层次上的节点比远离根节点层次上的节点占的比重要大,每一层上的权重系数都不相同,层次越高,权重系数越大,它对整个XML文档相似度的影响也就越大;反之,层次越低,权重系数越小,它对整个XML文档相似度的影响也就越小。权重系数以2的次幂逐层递增。这样计算出来的相似度就会更精确。为了验证基于该模型的相似度计算效果,本文采用了K-中心点算法进行聚类分析,实验结果表明,基于这种模型的相似度计算方法要优于树编辑距离和频繁路径等相似度计算方法得到的效果。
其他文献
网格门户是利用Web应用技术对网格资源和服务进行集成,给用户提供一个透明的针对特定问题的专有视图,降低了用户使用网格的复杂性。用户能够通过熟悉的Web界面、方便一致的操
作业车间调度问题(Job-Shop Scheduling Problem JSSP)是一种典型的组合优化问题,在工程应用中有着十分重要的地位。本文在研究现有JSSP求解方法的基础上,重点关注了基于免疫
第三方物流做为一种先进的组织方式和管理技术,被广泛认为是继降低物资消耗、提高劳动生产率之后的第三利润源泉。因此,研究物流系统建模技术及建立准确的物流系统模型,对更好地
随着网络技术的迅猛发展,WWW已成为信息发布、交互及获取的主要工具,它涉及新闻、广告、消费、金融、教育、电子商务等许多领域。Web具有四个特点:庞大性、动态性、异构性、
随着彩色信息在相关领域得到越来越广泛的应用,人们对色彩再现的质量也提出了更高的要求。色外观匹配技术是跨媒体色彩管理的一个重要组成部分。本文针对传统色彩管理技术不
随着对脑功能成像研究的深入,人类对语音运动控制的机理有了一定的共识。基于此,波士顿大学Guenther教授带领的研究小组提出了一个专门用于解释语音生成和获取过程的神经计算
SNP(单核苷酸多态性)是DNA多态性的一种最普遍的类型,它产生于基因序列中的一个核苷酸发生改变时,即一个SNP为基因序列中的一个核苷酸变异。SNP在整个人类基因组中大量存在,因此
在通信网络程序开发中,经常需要在通信设备以及网管软件之间进行数据报文的交换,但由于设备、软件平台异构和资源有限等诸多因素影响,使得通信报文的编解码对编码后的数据流(
随着互联网技术的发展,嵌入元数据(RDF,RDFa,Microformats等)的网络语义文档包含越来越多的结构化和半结构化数据。已有数以亿计的该类文档可以访问,并且它们的数量正在迅速
无线传感器网络是一种全新的信息获取、处理和传输技术。它集传感器技术、嵌入式计算技术、无线通信技术以及分布式信息处理技术于一体。目前,拓扑控制和路由算法作为无线传