论文部分内容阅读
随着互联网的迅速发展,XML已经成为互联网中最常用的数据交换与存储语言,如何从大量的XML文档中提取有价值的信息是目前的研究热点之一。在XML文档聚类方法的研究中,一种研究思路是对XML文档的表示模型进行改进,以期得到更有效的XML文档相似度计算方法。目前针对有XML文档的相似度计算有多种模型,如SET/BAG模型、VSM模型、树模型等,每种模型下都有多种相似度计算方法。本文介绍了文本聚类的基本知识及其应用,分析了常用的文本聚类算法及其优缺点,介绍了XML文档相似度计算的一些基本模型和这些基本模型下的相似度计算方法,分析了各种相似度计算方法的优缺点。本文提出了一种基于SET/BAG模型的改进的相似度计算方法。该方法将XML文档的每个节点转换成一个对象(由对象名、父对象、属性集合以及该对象相对于其父对象的权重组成),这样能较完整地表达XML文档的结构信息,并且通过调整重复节点的权重来降低其在相似度计算中的影响。本文在真实数据集与人工数据集上分别进行实验,使用查全率与查准率对聚类结果进行评估,通过与节点比较法,树编辑距离法等类似方法比较,仿真实验结果表明了本文提出的基于SET/BAG模型下改进的相似度计算方法能得到很好的聚类结果。