论文部分内容阅读
近几年来,随着社会信息化进程的不断深入发展,人类对信息的需求和依赖程度越来越高,如何从海量的信息资源中快速有效的获取有用的信息,已经成为研究的热点,这也给信息检索带来了极大的挑战。随着互联网的发展XML凭借其自身具有的结构化、可扩展、自描述等特点已经成为互联网上数据存储和数据交换的标准。
文档相似度的计算是文档检索、挖掘和深层次智能处理的基础,因此对相似度计算进行研究具有非常重要的意义,可以说文档相似度的计算直接影响了最后的检索结果。如果文档相似度的计算结果高效准确,那么检索结果就能达到用户的期望值。反之,如果文档相似度的计算结果不准确,查询过程的查全率和查准率就会受到很大的影响,最后用户就会检索不到自己想要的结果。
本文首先介绍了树编辑距离模型和频繁路径模型以及基于它们的相似度计算,综合这两种模型的优缺点,提出了一种针对XML文档结构聚类的模型——加权层次子树模型,并提出了基于加权层次子树模型的文档相似度计算方法,加权层次子树模型很好的表示了XML文档的层次关系和层次信息,通过消除重复元素和重复表达式,用更加简洁的表达式表示出XML文档的层次和元素信息,并基于此方法对XML文档进行了聚类分析。此相似度计算方法能将问题有效地简化,从而降低了解决问题的复杂度。这种算法能快速、准确分辨出具有相同结构的XML文档。
本文基于加权层次子树模型,提出了加权层次子树模型的相似度计算方法,首先考虑了元素的语义信息,将XML文档的元素语义信息纳入计算中,通过对语义信息的考虑,更加精确了相似度计算,从而达到很好的聚类效果。其次,在XML文档相似度计算中,考虑到了层次的权重问题,靠近根节点层次上的节点比远离根节点层次上的节点占的比重要大,每一层上的权重系数都不相同,层次越高,权重系数越大,它对整个XML文档相似度的影响也就越大;反之,层次越低,权重系数越小,它对整个XML文档相似度的影响也就越小。权重系数以2的次幂逐层递增。这样计算出来的相似度就会更精确。为了验证基于该模型的相似度计算效果,本文采用了K-中心点算法进行聚类分析,实验结果表明,基于这种模型的相似度计算方法要优于树编辑距离和频繁路径等相似度计算方法得到的效果。