论文部分内容阅读
XML具有简单性、结构化、可扩展性、互操作性、开放性、通用性、灵活性等特点,因而在数据交换、数据集成、数据发布、数据存储、数据管理、知识管理、信息检索等诸多领域获得广泛应用。XML数据的快速发展迫切需要与之相适应的、能有效处理XML数据的数据挖掘技术。然而传统数据挖掘技术主要处理关系数据库或数据仓库中的结构化数据,无法解决具有复杂层次结构的XML数据挖掘问题。目前关于XML数据频繁模式挖掘技术的研究尚处于起步阶段,虽然研究人员已经提出了一些面向XML数据的频繁模式挖掘算法,但由于XML数据具有结构变化、不规则、没有完全固定模式等特点,且XML数据中可挖掘结构繁多,因而至今缺乏一个统一的、抽象的模型去描述XML数据的频繁模式挖掘过程。本文在研究XML数据结构模型特征、表示方法的基础上,提出了一个统一、抽象的XML频繁模式挖掘框架系统。并在此框架基础上分别就XML数据的频繁标签序列挖掘技术、频繁查询子树离线挖掘技术、频繁查询子树在线挖掘技术、文档历史版本变化结构挖掘技术进行了讨论和研究:面向XML文档聚类的频繁XML标签序列挖掘技术研究采用分而治之的思想,提出了基于概念格的XML频繁标签序列挖掘算法。算法将XML标签数据按照共同前缀序列分成不相交等价类:通过在每个等价类中分别实施挖掘过程获取频繁标签序列。在标签序列挖掘技术基础上,研究了基于频繁标签序列的XML文档聚类技术。该技术采用频繁标签序列表示文档特征,通过考虑标签序列包含关系,并引入标签路径长度、标签路径在XML文档中连续状况等特性,提高XML文档相似性估量准确度及聚类质量。面向XML查询缓存的频繁XML查询子树离线挖掘技术研究分析XML查询结构的特点,提出了基于全局树视图的、自底向上的频繁查询子树挖掘算法BUXMiner和最大频繁查询子树挖掘算法BUMXMiner。通过构建全局树视图,使得候选子树的频度计算可直接从全局树视图中获得,而不再依赖于扫描XML文档数据集。借鉴频繁查询子树挖掘算法,给出了基于频繁查询子树的XML查询框架系统。XML查询系统中,为处理相似但不相同的XML查询树,介绍了四种XML查询树关系并给出了相似查询重写过程。大量实验表明BUXMiner算法在性能上优于原有查询子树挖掘算法;相比于传统缓存技术LRU、MRU,应用频繁查询的缓存技术可获得更好的XML查询效率。(?)基于滑动窗口的频繁XML查询子树在线挖掘技术研究通过引入滑动窗口模型,提出了面向XML查询数据流的频繁查询子树在线挖掘算法。算法以全局Trie树为数据缓存结构管理和维护缓存池的数据流,采用自下而上、基于前缀等价类的遍历方式快速产生所有带根查询子树和标准查询子树。实验结果表明该算法具有挖掘速度快、内存消耗稳定等特点,可以有效、平稳地处理XML查询数据流。(?)基于双位图B-DOM结构的XML文档历史版本变化结构挖掘技术研究在研究XML动态数据挖掘问题及XML版本变化结构挖掘框架的基础上,提出了动态变化结构挖掘算法DXSM,用于有效提取频繁变化结构及基于此的频繁插入变化结构和频繁删除变化结构。通过构建存储、管理数据动态变化信息的双位图结构B-DOM有效地解决了各种变化结构提取问题。实验结果表明该变化结构挖掘算法能快速、有效地提取XML版本序列中的变化结构信息。