论文部分内容阅读
XML(eXtensible Markup Language)是可扩展置标语言,在网络和其他领域的数据表示与交换方面显示出强大的数据表达能力。现在,越来越多的数据以XML文档进行存储,XML文档的数据挖掘技术在理论与实践方面成为研究的热点。由于XML文档具有复杂性、异构性、半结构化的特点,传统的面向关系型数据的挖掘技术无法直接应用,探索有效的XML数据挖掘技术成为数据挖掘领域的一项重要研究课题。
目前,国内外XML文档数据挖掘技术主要分为文档内容挖掘和文档结构挖掘。XML内容挖掘本质上是对标记值的挖掘,可以对单个或群组XML文档进行挖掘。XML的元素标记和嵌套关系表示XML文档的结构,结构挖掘实际操作是将XML文档的结构看作一棵标记树,在此基础上对树的挖掘。
本文主要研究XML文档结构的聚类技术。通过研究发现,传统相似度计算方法不能满足嵌套结构的语义要求,树路径模型的聚类算法存在忽略兄弟节点之间关系和未考虑路径权重以及路径匹配方法等问题。为解决上述问题,本文设计了一个新的XML文档聚类方法:XML文档两阶段聚类方法(TPCM:Two Phase Clustering Method of XML Documents),主要研究成果如下:
1、采用XSLT生成XML文档结构框架的简化树,改进XML文档结构向量定义和XML文档结构相似度计算公式,对XML文档集合进行第一阶段聚类。
2、针对树路径模型的相似度算法存在的问题,提出改进的XML文档树路径模型,改进了路径之间相似度计算,使XML文档结构相似度计算结果更合理。在第一阶段文档集聚类结果基础上,按重聚类标准再进行第二阶段聚类,得出最后聚类结果。
3、对于每个阶段,分别对处理方法和程序流程进行了详细说明,并编程实现,得出了部分测试结果和性能分析。最后实验结果显示,使用TPCM方法对XML文档集合进行聚类,较大地提高了聚类准确率,减少了时间开销。