XML数据频繁模式挖掘技术研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户：catshadow6

【摘要】

：

XML具有简单性、结构化、可扩展性、互操作性、开放性、通用性、灵活性等特点,因而在数据交换、数据集成、数据发布、数据存储、数据管理、知识管理、信息检索等诸多领域获得

【作者】

：

贝毅君

【出处】

：

浙江大学

【发表日期】

：

2008年期

【关键词】

：

XML数据挖掘频繁模式标签序列挖掘查询子树挖掘变化结构挖掘聚类查询缓存

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

XML具有简单性、结构化、可扩展性、互操作性、开放性、通用性、灵活性等特点,因而在数据交换、数据集成、数据发布、数据存储、数据管理、知识管理、信息检索等诸多领域获得广泛应用。XML数据的快速发展迫切需要与之相适应的、能有效处理XML数据的数据挖掘技术。然而传统数据挖掘技术主要处理关系数据库或数据仓库中的结构化数据,无法解决具有复杂层次结构的XML数据挖掘问题。目前关于XML数据频繁模式挖掘技术的研究尚处于起步阶段,虽然研究人员已经提出了一些面向XML数据的频繁模式挖掘算法,但由于XML数据具有结构变化、不规则、没有完全固定模式等特点,且XML数据中可挖掘结构繁多,因而至今缺乏一个统一的、抽象的模型去描述XML数据的频繁模式挖掘过程。本文在研究XML数据结构模型特征、表示方法的基础上,提出了一个统一、抽象的XML频繁模式挖掘框架系统。并在此框架基础上分别就XML数据的频繁标签序列挖掘技术、频繁查询子树离线挖掘技术、频繁查询子树在线挖掘技术、文档历史版本变化结构挖掘技术进行了讨论和研究:面向XML文档聚类的频繁XML标签序列挖掘技术研究采用分而治之的思想,提出了基于概念格的XML频繁标签序列挖掘算法。算法将XML标签数据按照共同前缀序列分成不相交等价类:通过在每个等价类中分别实施挖掘过程获取频繁标签序列。在标签序列挖掘技术基础上,研究了基于频繁标签序列的XML文档聚类技术。该技术采用频繁标签序列表示文档特征,通过考虑标签序列包含关系,并引入标签路径长度、标签路径在XML文档中连续状况等特性,提高XML文档相似性估量准确度及聚类质量。面向XML查询缓存的频繁XML查询子树离线挖掘技术研究分析XML查询结构的特点,提出了基于全局树视图的、自底向上的频繁查询子树挖掘算法BUXMiner和最大频繁查询子树挖掘算法BUMXMiner。通过构建全局树视图,使得候选子树的频度计算可直接从全局树视图中获得,而不再依赖于扫描XML文档数据集。借鉴频繁查询子树挖掘算法,给出了基于频繁查询子树的XML查询框架系统。XML查询系统中,为处理相似但不相同的XML查询树,介绍了四种XML查询树关系并给出了相似查询重写过程。大量实验表明BUXMiner算法在性能上优于原有查询子树挖掘算法;相比于传统缓存技术LRU、MRU,应用频繁查询的缓存技术可获得更好的XML查询效率。(?)基于滑动窗口的频繁XML查询子树在线挖掘技术研究通过引入滑动窗口模型,提出了面向XML查询数据流的频繁查询子树在线挖掘算法。算法以全局Trie树为数据缓存结构管理和维护缓存池的数据流,采用自下而上、基于前缀等价类的遍历方式快速产生所有带根查询子树和标准查询子树。实验结果表明该算法具有挖掘速度快、内存消耗稳定等特点,可以有效、平稳地处理XML查询数据流。(?)基于双位图B-DOM结构的XML文档历史版本变化结构挖掘技术研究在研究XML动态数据挖掘问题及XML版本变化结构挖掘框架的基础上,提出了动态变化结构挖掘算法DXSM,用于有效提取频繁变化结构及基于此的频繁插入变化结构和频繁删除变化结构。通过构建存储、管理数据动态变化信息的双位图结构B-DOM有效地解决了各种变化结构提取问题。实验结果表明该变化结构挖掘算法能快速、有效地提取XML版本序列中的变化结构信息。

其他文献

拍震揉冷热敷护眼产品靠谱吗？

很多人正被眼睛干痒酸涩折磨着，原因不言自明，电脑、平板、手机过度使用，导致用眼过度。指望“屏奴”毅然决然地放下手机、离开电脑似乎不大可能，这种情形下，护眼产品大热。$$这里

报纸

相约红茶坊

期刊

红茶坊商务洽谈

医疗纠纷行政调解的地位重塑——以实证分析为视角

由于现行的医疗纠纷行政调解存在调整范围狭窄、调解主体中立性、程序机制及调解结果法律执行力的缺失、法律适用的“二元化”困境等问题,导致以专业化、高效率为价值欲求的

期刊

医疗纠纷行政调解重塑

激励合作共赢——青少年英语分层教学中常见误区及实施建议

分层教学思想是在承认学生个体差异的前提下,提倡对不同学生开展＂因材施教＂,分层教学的积极意义一度受到众多学校和教师的认同并实践推广。然而,教学改革在带来课堂教学内容、

期刊

分层教学误区建议

李倜书法鉴赏

李倜(生卒年不详),元代书法家,字士弘,山西太原人。历任集贤侍读学士,临江路总管,盐运使等职。李倜的诗、书、画皆有名,其书作既得晋人形质,又得晋人神韵。存世书迹很少,以《

期刊

陆柬之

性科学也要及时“吐故纳新”

任何一门学科在其发展过程中都必须经常性的吐故纳新，将以往一些理论、结论根据当代研究的结果加以增新、改变乃至淘汰，使之一直处于更先进、更科学的状态，也只有在这种新旧更替

期刊

包皮

商业银行基于全面预算的成本管理的研究

众所周知,在近些年的发展过程中,金融危机发生的频率越来越高,很多银行因此遭受重大经济损失,甚至走向破产。这就充分证明了在银行里建立起一个健全的管理模式的重要性。纵观

期刊

商业银行全面预算成本管理

研究全程护理干预对胃癌术后早期肠内营养并发症的影响

目的对胃癌手术患者施行全程护理干预,探究该护理方法对早期肠内营养并发症的具体影响。方法选择2016年6月至2017年医院普外科收治的30例胃癌手术患者,以随机分组的形式分成

期刊

胃癌手术早期肠内营养全程护理干预并发症

关于我国家庭过期药品的回收管理建议

过期药品不仅给家庭造成浪费,同时会产生用药安全隐患、环境污染和社会危害等严重后果。有效处理过期药品,是目前我国急需解决的问题。本文在分析我国家庭过期药品产生原因、

期刊

家庭过期药品回收机制

形状分析的新方法及其应用

形状分析是计算机视觉领域的一个重要的研究问题，已经在科学研究领域和工程技术方面有着非常广泛的应用，如目标识别、基于内容的图像检索、文字识别、医疗诊断等。本文通过对现

学位

形状分析多边形近似混合遗传算法内角链傅立叶描述多级弦长函数形状检索

XML数据频繁模式挖掘技术研究

其他学术论文