论文部分内容阅读
XML文档是典型的半结构化数据,XML是可扩展标记语言(eXtensibleMarkup Language)的英文简称。在1998年,万维网联盟W3C就开发并制定XML的标准并提出了XML格式,即XML1.0标准,并同时提出了文档定义类型DTD(Document Type Definition)标准和规范。XML数据是典型的半结构化数据,具备层次特性及动态可变特性和自述特性等半结构化数据的一般基本属性。随着计算机网络技术的发展,以XML格式为代表的半结构化数据被广泛应用于各种数据库系统中。目前,可以在网络中获得大量的XML文档数据,而如何在这些的基于XML文档类型的海量数据中挖掘出来用户关注的知识,即XML文档数据挖掘已经成为新时期数据挖掘领域研究的热点问题之一。在XML文档数据挖掘研究领域,XML文档数据集聚类问题是研究重点之一。XML文档聚类问题主要研究如何将具有相似特征的XML文档归为一簇,主要用于对具有相似特征的XML文档数据集进行数据分析。在进行XML文档数据集聚类之前,如何有效准确的衡量两篇XML文档数据或多篇XML文档数据间的相似程度(距离)是需要解决的重要问题,当考虑XML文档内容信息和领域知识后,正确的衡量XML文档数据集中各个元素的相似程度变得更加复杂。可以说,XML文档数据相似性度量算法的优劣直接影响XML文档数据集聚类结果的质量高低。本文归纳总结了目前已提出XML文档聚类问题的解决方法。首先简单介绍了XML文档聚类的核心问题,即XML文档相似性度量问题。其次从树编辑距离相似性度量方法的角度列举了相关的聚类方法。之后从信息检索相似性度量方法的角度列举了相关的聚类算法。最后列举了基于其他理论方法进行相似性度量的XML文档聚类方法。在第三章,本文提出了一种基于层次数据的XML文档聚类方法,称为CXLI算法。CXLI算法过程首先创建XML文档的线性数构表,然后根据线性结构表的信息将文档中的重复嵌套结构删除。在本文中,还提出了在考虑层数信息的前提下,XML文档各种基本编辑操作约束条件。之后,提出一种使用动态规划方法的带有XML文档层数信息文档间相似性度量方法,该方法在进行XML文档间相似性度量时,将XML文档数据的层数作为影响XML文档相似度的因素进行计算。CXLI方法可以用于计算XML文档相似度的所有应用领域中。最后,提出了基于凝聚型层次聚类思想的XML文档数据集聚类方法。计算机验证实验在人工数据集和ACM Sigmod真实数据集中进行,实验结果显示了本文提出的方法是有效的。在第四章,为了进一步提高聚类结果的正确率,提出了一种基于boosting理论的XML文档聚类方法。首先讨论了Boosting能够提高聚类质量(尤其是弱聚类算法)的基本原理。然后,提出了一个命名为ICBQ的算法用来有效的提高XML文档数据集聚类方法的聚类质量。通过实验表明,我们的方法具有很好的效率,并且具有更高的准确率,基于Boosting理论的能够有效地提高XML文档的聚类结果,实验结果表明,无论在真实数据集还是在人工生成的数据集上,使用ICQB方法都能够使得Nierman的方法、Dalamagas的方法和Flesca的方法聚类结果有明显的提高。