基于矩阵的频繁项集挖掘算法研究

来源 :兰州大学 | 被引量 : 0次 | 上传用户:yangminfeng_1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联规则是数据挖掘领域的一个重要分支,它反映的是大量数据中间内在的关联联系,其目的是找出满足最小支持度和最小置信度要求的强关联规则。频繁项集挖掘是关联规则挖掘的关键步骤,也是数据挖掘的热点和难点问题。可见,频繁项集挖掘是一个具有重要理论意义和广阔应用前景的研究课题。频繁项集挖掘算法研究。本文在对关联规则挖掘问题简述的基础上,深入地探讨了典型的频繁项集挖掘算法Apriori和FP-Growth,并关注了几种改进的频繁项集挖掘算法,介绍了频繁项集挖掘问题的最新扩展。基于矩阵改进频繁项集挖掘。本文提出了一种改进的基于矩阵的频繁项集挖掘算法。该算法汲取了经典频繁项集挖掘算法的基本思想,引入了一种新的数据结构:IMoFI。该算法采用类似指针原理的间接寻址方式的索引技术,对位图模式存储的候选项集矩阵进行了内部编码,使矩阵IMoFI的元素不仅仅描述某个特定的频繁项目在某事务中的出现,而且描述频繁项目下次出现时所在事务的序号。结合辅助向量AV的使用,算法避免了候选项集的重复存储,有效地压缩了矩阵IMoFI的存储代价。通过以上改进,该算法为快速搜索频繁项目集合提供了非常有效的方法,从而提高了频繁项集挖掘的效率。本文在.NET环境下,用C#语言实现了该算法,并令其与经典的频繁项集挖掘算法进行了比较,发现该算法在短模式数据上具有良好的性能,并对该算法提升挖掘性能的原因进行了归纳。
其他文献
分布式文件系统有效地解决了数据的存储和管理的难题,但却面临多用户并发访问数据的一致性问题,分布式锁机制为不同客户端正确访问服务器上的数据提供了保障。在多客户端同时
银行管理数据提取平台是根据银行工作的标准化、服务化、信息化、网络化、而建立的一种管理信息系统。银行的数据管理对象是金融行业大量的、随时更新的又需要高度保密的数据
有限单元法是一种有效的数值分析方法,是计算机辅助工程(CAE)的重要组成部分。随着工程问题复杂度的逐渐增加,CAD/CAE建模方法也在不断地发展。逆向工程是近几年发展起来的一种
混合云存储作为一种新型的数据存储模式,特别是随着大数据浪潮的到来,这一新型的数据存储模式已经逐渐被各行各业所接受、所使用。虽然这种存储模式看来潜力无限,但在实际使
目前,随着电子商务、物流行业的迅速发展以及国民消费水平的不断提高,网上购物规模逐年上升。相比传统购物方式,网上购物不仅具有方便、快捷、安全的优点,同时允许消费者对购买成
本文使用统一建模语言UML和统一过程RUP相结合的的面向对象软件工程方法学指导软件系统的设计与实现,将UML和RUP有机融合应用于项目--在线考试系统中。按RUP的核心工作流安排
聚类就是将数据对象分组成为多个类或簇,在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。相异度是根据描述对象的属性值来计算的。距离是经常采用的度量方
随着互联网络的迅速发展,网络信息成为最大的信息来源,如何从海量的网络信息中准确查找自己所需要的信息是搜索引擎需要解决的主要问题。而随着信息多元化的增长,需要为不同
由于RDF(Resource Description Framework)数据模型的灵活性和可扩展性,越来越多的社区将它们的数据以RDF的格式进行发布。因此,分布式存储和处理RDF数据已经成为一个热点问
在外存模式图处理系统处理大规模图数据时,由于图应用访问的随机性和图数据的低局部性,导致此类图处理系统在访问图数据时产生大量的外存储器随机I/O请求,从而严重影响文件缓