基于结构向量空间和树路径模型的XML文档聚类技术研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:aa283488665
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
XML(eXtensible Markup Language)是可扩展置标语言,在网络和其他领域的数据表示与交换方面显示出强大的数据表达能力。现在,越来越多的数据以XML文档进行存储,XML文档的数据挖掘技术在理论与实践方面成为研究的热点。由于XML文档具有复杂性、异构性、半结构化的特点,传统的面向关系型数据的挖掘技术无法直接应用,探索有效的XML数据挖掘技术成为数据挖掘领域的一项重要研究课题。 目前,国内外XML文档数据挖掘技术主要分为文档内容挖掘和文档结构挖掘。XML内容挖掘本质上是对标记值的挖掘,可以对单个或群组XML文档进行挖掘。XML的元素标记和嵌套关系表示XML文档的结构,结构挖掘实际操作是将XML文档的结构看作一棵标记树,在此基础上对树的挖掘。 本文主要研究XML文档结构的聚类技术。通过研究发现,传统相似度计算方法不能满足嵌套结构的语义要求,树路径模型的聚类算法存在忽略兄弟节点之间关系和未考虑路径权重以及路径匹配方法等问题。为解决上述问题,本文设计了一个新的XML文档聚类方法:XML文档两阶段聚类方法(TPCM:Two Phase Clustering Method of XML Documents),主要研究成果如下: 1、采用XSLT生成XML文档结构框架的简化树,改进XML文档结构向量定义和XML文档结构相似度计算公式,对XML文档集合进行第一阶段聚类。 2、针对树路径模型的相似度算法存在的问题,提出改进的XML文档树路径模型,改进了路径之间相似度计算,使XML文档结构相似度计算结果更合理。在第一阶段文档集聚类结果基础上,按重聚类标准再进行第二阶段聚类,得出最后聚类结果。 3、对于每个阶段,分别对处理方法和程序流程进行了详细说明,并编程实现,得出了部分测试结果和性能分析。最后实验结果显示,使用TPCM方法对XML文档集合进行聚类,较大地提高了聚类准确率,减少了时间开销。
其他文献
本文提出了一种在含有带关节模型的数据库中检索三维形状的方法。首先,针对每一个形状都基于谱嵌入的方法求得其相应的谱嵌入表示,这里的谱嵌入是基于以近似测地距离为基础构
目的探讨流感样病例与气象因素、空气质量因素的相关关系,用时间序列分析法构建流感样病例预测模型,对流感预警预测技术进行有效探索。方法收集2014年至2017年呼和浩特市流感样病例监测资料及同期气象资料和空气质量因素资料,分析流感样病例与气象因素和空气质量因素的相关性,建立该地区流感样病例季节性自回归移动平均(seasonal autoregressive integrated moving aver
随着计算机网络的迅速发展,人们希望通过电子设备实现快速、远距离的交易,数字签名应运而生,并开始应用于现实社会中。数字签名已经在信息保密、身份认证、数据完整性、不可
后基因组时代的到来,生物信息学的研究重心日益从基因组测序工作转移到对已测序基因组的功能进行注释。传统的基于同源性的注释方法由于自身存在的缺陷在精确度方面已经不能满
随着网络技术的快速发展, XML类型的数据已成为当前一种主流的数据形式,并成为Internet中进行数据交换和表示事实上的标准。在实际生活中,数据的不确定性是普遍存在的,传统的确
随着计算机技术、通讯技术和网络技术的飞速发展,Internet应用的日益普及,电子文档的数量逐日剧增。为了更好地利用这类非结构化数据资源,人们迫切需要构建高效的文本检索、
近年来,随着网络和计算机技术的发展,信息交流变得更加的方便快捷。同时在当今社会,人们对工作效率的要求越来越高,希望能在最短的时间内将事情处理好。电话会议系统具备了方
随着Internet的快速发展,web已经成为全球化的信息源,它为信息共享和资源共享提供了一个良好的平台。然而,用传统的搜索引擎人们很难迅速准确地找到所需要的信息。信息抽取技