挖掘序列模式和结构化模式的精简集

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:yeyeh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在今天的信息社会中,人们已经拥有了大量的数据,迫切需要将这些数据转化为有用的信息和知识。在这样的背景下,数据挖掘这门新兴学科受到广泛的关注。数据挖掘是在大量的数据中寻找知识,其中,序列模式和结构化模式的挖掘是一个重要的数据挖掘问题,有着广泛的应用。在序列模式的挖掘中,最为重要、最有影响力的算法包括GSP算法和PrefixSpan算法。这些算法都是挖掘频繁序列模式的全集,当序列模式的数量很大时,挖掘序列模式的全集不仅效率很低,而且效果也不好,因为要存储和理解这么多的序列模式是不现实的。解决这个问题的一种途径就是不再去挖掘序列模式的全集,而是只挖掘它的一个精简集。精简集保留了频繁序列模式的总体信息,但序列模式的数目大为减少,有助于用户理解挖掘结果,也有助于提高挖掘算法的效率。精简的频繁序列模式基就是这样一种精简集,它是频繁序列模式全集的一个特殊子集,能用它来估计不在其中的序列模式的支持度,而且误差能保证在用户指定的误差上限内。有两种构造精简的频繁序列模式基的方法:第一种方法逐级检查所有的频繁序列模式,当一个频繁序列模式不能被它在精简基中的子模式估计支持度时,它才被加到精简基中;第二种方法用相对于一系列支持度阈值的最大序列模式构造精简的频繁序列模式基。在采用这种方法的算法中,给出了如何判断最大序列模式的方法,还设计了一些搜索空间剪枝技术,提前剪掉那些不可能生成最大序列模式的分支来加速挖掘过程。压缩频繁序列模式集是针对频繁序列模式的全集太大这个问题的另一种解决方法。为了得到高质量的压缩效果,先对频繁序列模式聚簇,再从每个簇中挑选出有代表性的序列模式,使这些有代表性的序列模式的数目尽可能地少。一个贪婪算法和一个基于候选集的快速算法是压缩频繁序列模式集的有效算法。有代表性的序列模式集合也是频繁序列模式的一种精简集,实验结果表明它能取得很好的压缩效果。树模式的挖掘比序列模式的挖掘更为困难,因为在树模式的挖掘中,子树的组合方式太多。而精简的频繁子树基由相对于一系列支持度阈值的最大频繁子树组成,它是频繁子树的一个精简集,可以用它来估计任一频繁子树的支持度,并能将误差控制在确定范围内。一个算法能用来从带标号的有根有序树的数据库中挖掘子树精简基,这个算法经过简单的扩展后也能用来挖掘有根无序树。该算法采用最右扩展的方式系统地生成频繁子树,采用的剪枝技术能减小搜索空间,合理安排的计算次序能提高计算的效率。数据库中的频繁模式可以用于建立数据库索引。基于树模式的数据库索引首先挖掘频繁子树,并从中挑选出有判别力的子树作为索引属性,然后将索引属性集合中的子树转换成序列,并将索引组织成前缀树的形式。频繁子结构能揭示数据的内在特性,对于数据库修改也很稳定,用有判别力的频繁子树为树数据库构造索引,能显著地提高子树查询的性能。
其他文献
为用户提供强大易用的造型工具,满足他们创造复杂几何形体的需要一直是计算机图形学界所致力追求的目标之一。现有商业造型系统的复杂性使得它们的使用都局限于一些专业人员
先秦儒家以人为社会管理的中心,以分、和为两种必要的社会管理方式,以礼、乐为社会管理的激励和教化机制,体现了社会管理中的人文关怀精神,可以为我们深化行政管理体制改革和推进
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
模式识别是一门以应用数学为理论基础,利用计算机应用技术,解决实际分类及识别问题的学问。统计和微分几何规范理论和技术在模式识别中有着广泛的应用,尤其是在形状分析以及混合
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
基于政策工具视角,采用内容分析法对民国时期政府管理国立大学政策的量化研究显示,民国时期政府管理国立大学的各类政策工具使用不均,以命令性工具为主导,但政策涉及的管理要
虚张声势是扑克玩家秘笈里面最古老的一种手段,不过在自然界中动物们也能将此运用自如.瑞典斯德哥尔摩大学的动物专家说,孔雀蝴蝶是鸟类最爱吃的一种美味,它们经常先一动不动
维数约减是处理多维数据的一个重要步骤,是机器学习中的一个重要研究课题,尤其是非线性维数约减技术已经成为机器学习中的一个研究热点。本文针对非线性维数约减算法中的若干
人、知识和信息是现代制造系统中决定性要素。设计数据和设计知识对制造业发展的制约越来越明显,对锻件产品开发更为突出。利用先进的知识管理理念和信息技术的成果合理有效地
权限管理技术是安全系统的核心技术,它通过权限的设置和维护,来阻止对计算机系统和资源的非授权访问,确保只有适当的人员才能获得适当的服务和数据。权限管理问题一直是计算