改进的垂直数据表示的高效频繁项集挖掘算法研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:veteran_eng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联规则挖掘是近年来发展十分迅速而且非常活跃的研究领域。它主要应用于发现数据中不同项目或属性之间的有趣联系。随着被收集和存储数据的高速增长,许多业界人士对于从他们的数据库中挖掘关联规则的兴趣愈加浓厚。频繁项集挖掘是关联规则挖掘的基础和核心问题。相关挖掘算法的性能直接影响数据挖掘尤其是关联挖掘的效率和应用范围。为了进一步适应和满足用户不断变化的需求,本文进行了一系列关于提高频繁项集挖掘算法的性能和完善相关功能的研究工作。 本文首先认真地分析和归纳了当前频繁项集挖掘算法的研究成果,并测试和总结出相关算法的实现方法和性能特点,为提出性能和功能更优的频繁项集挖掘算法作好理论准备。然后在提高执行挖掘的效率和消除矛盾或无效规则相关信息这两个方面对当前的高效挖掘算法进行一系列的改进。1)本文提出的HybridSet算法结合了采用垂直数据表示的Eclat和Diffset算法分别善于处理稀疏和稠密数据集的优点。实验证明,HybirdSet算法在分析稀密程度不同的数据集时的性能与Eclat等经典算法的最优性能基本一致甚至更优。2)充分利用频繁项集的相关信息是减少计算候选集的支持度的时间开销的重要途径。实验证明,本文根据这一特点提出的HybirdSet+算法能在很多情况下进一步提高执行频繁项集挖掘任务的效率;3)由于上述算法的结果中存在与矛盾或无效规则相关的频繁项集,本文根据频繁项集和相关度之间的联系对HybirdSet+算法做出相应改进。实验证明,改进后的DHybirdSet算法能在真实数据的分析中减少部分冗余频繁项集的生成。
其他文献
J2EE服务架构已成为当前行业应用软件开发的主流架构,然而在实际的应用中,J2EE构架的重量级组件却给系统开发和测试带来了很大的困难,以致造成了很多项目的失败。近年来,集成了多
生物识别技术在当今世界中已经得到了广泛的应用。虹膜身份识别是一种新兴的生物身份识别技术,由于其具有唯一性、稳定性、可采集性、非侵犯性等优点而逐步受到人们的重视。与
关联规则是数据挖掘技术的一种方法,侧重于确定数据集中不同属性之间的联系,找出满足给定支持度和置信度阈值的多属性之间的依赖关系。这样的规则可以应用于商品货架设计、存货
在当前科研机构的日常办公中,对科研信息的管理是非常重要的工作。对于大量的科研信息,如何能够快速的检索到用户真正感兴趣的内容,成为近些年来学者研究的一个热点。目前,国内外
为了能更好地支持决策分析,发挥数据的更大价值,数据仓库技术应运而生。其中,联机分析处理(OLAP)是数据仓库最主要的应用之一。本文从提高数据仓库和OLAP系统性能的角度出发,讨论
随着Internet和分布式系统的广泛应用,安全协议逐渐发挥着越来越重要的作用。形式化的方法是分析安全协议的主要方法。目前已经有很多研究安全协议的理论和方法,其中比较著名
工作流是一类能够完全或者部分自动执行的经营过程,它能使一系列过程规则、文档、信息或任务能够在不同的执行者之间进行传递与执行。而工作流管理系统则是一个软件系统,它完
聚类是人类一项最基本的认识活动,也是处理数据的重要工具,在许多领域中被广泛地应用。该文主要侧重于半监督聚类分析的研究,针对现有方法存在的问题,提出一些新方法和观点。
随着网络化、信息化程度的逐步提高,网络信息安全被更多的学者所重视,国家的PKI信息化建设也正在进行。但是,由于PKI和CA证书固有的缺陷,大范围和大规模部署公钥基础设施和应用CA
随着嵌入式计算技术的飞速发展,嵌入式系统的功能变得越来越强大,然而系统的功耗却成为嵌入式系统设计的主要制约因素之一。嵌入式系统的功耗可以在静态和动态两个技术范畴内来