基于加权层次子树的XML文档相似度计算

来源 :天津工业大学 | 被引量 : 0次 | 上传用户：weibo525525888

【摘要】

：

近几年来，随着社会信息化进程的不断深入发展，人类对信息的需求和依赖程度越来越高，如何从海量的信息资源中快速有效的获取有用的信息，已经成为研究的热点，这也给信息检索带来了极

【作者】

：

王玲

【机构】

：

天津工业大学

【出处】

：

天津工业大学

【发表日期】

：

2009年期

【关键词】

：

XML文档加权层次子树模型文档相似度聚类分析树编辑距离模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近几年来，随着社会信息化进程的不断深入发展，人类对信息的需求和依赖程度越来越高，如何从海量的信息资源中快速有效的获取有用的信息，已经成为研究的热点，这也给信息检索带来了极大的挑战。随着互联网的发展XML凭借其自身具有的结构化、可扩展、自描述等特点已经成为互联网上数据存储和数据交换的标准。　　文档相似度的计算是文档检索、挖掘和深层次智能处理的基础，因此对相似度计算进行研究具有非常重要的意义，可以说文档相似度的计算直接影响了最后的检索结果。如果文档相似度的计算结果高效准确，那么检索结果就能达到用户的期望值。反之，如果文档相似度的计算结果不准确，查询过程的查全率和查准率就会受到很大的影响，最后用户就会检索不到自己想要的结果。　　本文首先介绍了树编辑距离模型和频繁路径模型以及基于它们的相似度计算，综合这两种模型的优缺点，提出了一种针对XML文档结构聚类的模型——加权层次子树模型，并提出了基于加权层次子树模型的文档相似度计算方法，加权层次子树模型很好的表示了XML文档的层次关系和层次信息，通过消除重复元素和重复表达式，用更加简洁的表达式表示出XML文档的层次和元素信息，并基于此方法对XML文档进行了聚类分析。此相似度计算方法能将问题有效地简化，从而降低了解决问题的复杂度。这种算法能快速、准确分辨出具有相同结构的XML文档。　　本文基于加权层次子树模型，提出了加权层次子树模型的相似度计算方法，首先考虑了元素的语义信息，将XML文档的元素语义信息纳入计算中，通过对语义信息的考虑，更加精确了相似度计算，从而达到很好的聚类效果。其次，在XML文档相似度计算中，考虑到了层次的权重问题，靠近根节点层次上的节点比远离根节点层次上的节点占的比重要大，每一层上的权重系数都不相同，层次越高，权重系数越大，它对整个XML文档相似度的影响也就越大；反之，层次越低，权重系数越小，它对整个XML文档相似度的影响也就越小。权重系数以2的次幂逐层递增。这样计算出来的相似度就会更精确。为了验证基于该模型的相似度计算效果，本文采用了K-中心点算法进行聚类分析，实验结果表明，基于这种模型的相似度计算方法要优于树编辑距离和频繁路径等相似度计算方法得到的效果。

其他文献

面向协同设计的冲突消解网格门户研究

网格门户是利用Web应用技术对网格资源和服务进行集成,给用户提供一个透明的针对特定问题的专有视图,降低了用户使用网格的复杂性。用户能够通过熟悉的Web界面、方便一致的操

学位

协同设计冲突消解网格计算网格服务网格门户门户框架

基于免疫克隆选择算法的作业车间调度问题研究

作业车间调度问题(Job-Shop Scheduling Problem JSSP)是一种典型的组合优化问题,在工程应用中有着十分重要的地位。本文在研究现有JSSP求解方法的基础上,重点关注了基于免疫

学位

作业车间调度调度编码邻域搜索免疫克隆选择禁忌搜索

面向第三方物流管理及系统产品化的研究和应用

第三方物流做为一种先进的组织方式和管理技术，被广泛认为是继降低物资消耗、提高劳动生产率之后的第三利润源泉。因此，研究物流系统建模技术及建立准确的物流系统模型，对更好地

学位

第三方物流遗传算法Petri网系统产品化物流系统模型分配策略

主题相关的PageRank算法的改进策略的研究和实现

随着网络技术的迅猛发展,WWW已成为信息发布、交互及获取的主要工具,它涉及新闻、广告、消费、金融、教育、电子商务等许多领域。Web具有四个特点:庞大性、动态性、异构性、

学位

搜索引擎PageRank算法主题相关IPageRank算法

基于色外观匹配的色彩再现

随着彩色信息在相关领域得到越来越广泛的应用,人们对色彩再现的质量也提出了更高的要求。色外观匹配技术是跨媒体色彩管理的一个重要组成部分。本文针对传统色彩管理技术不

学位

色外观色适应转换RLAB色外观模型色彩管理

应用DIVA模型处理中文语音信号方法的研究

随着对脑功能成像研究的深入,人类对语音运动控制的机理有了一定的共识。基于此,波士顿大学Guenther教授带领的研究小组提出了一个专门用于解释语音生成和获取过程的神经计算

学位

DIVA模型脑电信号稀疏分解噪声语音—体觉映射

基于多层感知器模型的单核苷酸多态性上致病因素之间关系的研究

SNP(单核苷酸多态性)是DNA多态性的一种最普遍的类型，它产生于基因序列中的一个核苷酸发生改变时，即一个SNP为基因序列中的一个核苷酸变异。SNP在整个人类基因组中大量存在，因此

学位

单核苷酸多态性多层感知器致病模型特征选择疾病预测模型

综合测试平台ISEE中ASN.1的应用与实现

在通信网络程序开发中,经常需要在通信设备以及网管软件之间进行数据报文的交换,但由于设备、软件平台异构和资源有限等诸多因素影响,使得通信报文的编解码对编码后的数据流(

学位

抽象语法标记一编解码插件可扩展性

基于本体论的精细化数据分析

随着互联网技术的发展,嵌入元数据(RDF,RDFa,Microformats等)的网络语义文档包含越来越多的结构化和半结构化数据。已有数以亿计的该类文档可以访问,并且它们的数量正在迅速

学位

元数据信息检索倒排索引关联规则频繁项集

无线传感器网络拓扑控制及路由算法研究

无线传感器网络是一种全新的信息获取、处理和传输技术。它集传感器技术、嵌入式计算技术、无线通信技术以及分布式信息处理技术于一体。目前,拓扑控制和路由算法作为无线传

学位

无线传感器网络拓扑控制睡眠调度功率控制能量均衡

基于加权层次子树的XML文档相似度计算

其他学术论文