一种高效频繁项集挖掘算法的研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:opou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘在最近几年里己被数据库界广泛研究和应用,而关联规则的挖掘在其中占有很重要的地位,其在商务决策制定方面的应用很有前景,而生成频繁项集是关联规则挖掘处理中的瓶颈,因此,大部分研究都集中在频繁项集的产生上。本文提出了一种新的存储结构——横纵向链接表和一种有效的频繁项集挖掘算法——排序的横纵向链接表挖掘算法。 首先,本文介绍了数据挖掘、关联规则挖掘和频繁项集挖掘的基本知识。 然后,分析现存的频繁项集挖掘算法的优缺点,从存储结构和挖掘过程两方面进行改进,提出横纵向链接表存储结构和排序的横纵向链接表挖掘算法。该算法的优点在于:(1)只对数据库进行一次扫描;(2)对事务中的各个项按频繁支持计数进行降序排列,减少了递归挖掘次数;(3)建立项间横纵向链接,减少了事务间项的扫描次数。 再者,通过对给定数据的处理,对排序的横纵向链接表挖掘算法和H-Mine算法进行了性能比较分析,论述该算法的优点和不足。 最后,提出排序的横纵向链接表分区挖掘算法的设计思想,并对其发展前景进行展望。
其他文献
网络已经成为人们日常生活的一个重要组成部分。人们的网络安全意识也日益加强,而数字签名(即电子签名)的设计,分析和研究,在某种程度上还是较滞后的。所以数字签名的研究对网络
移动自组网(Ad Hoc网)作为一种无中心、自组织的无线移动通信网络,由于其高效的自组性,支持动态变换的网络拓扑结构和多跳转发技术,以及无中心节点的鲁棒性和抗毁性,使其广泛运用
随着Internet的飞速发展,Web已经成为一个海量的、动态的、异构的信息资源库。这使得一方面出现“信息爆炸”,而另一方面,人们迫切需要从Web上快速、有效的获取信息和知识。W
蛋白质构形预测问题就是根据组成蛋白质的氨基酸序列来预测其空间折叠结构。蛋白质是一类重要的生物大分子,是生命活动的主要承担者。研究蛋白质的根本目的是要将天然蛋白质
移动数据库技术是分布式数据库技术和分布式计算研究的重要分支。移动数据库是为了适应移动计算环境下的数据存取需求而产生和发展起来的,通常可以看作是传统分布式数据库的
在数据挖掘和机器学习领域中分类是一项非常重要的基本任务。它能对大量有关数据进行学习和分析,并建立相应问题领域中的分类模型。该技术在科学、通讯、金融等领域均有着广泛
在现实世界的许多应用中,例如网络控制器、电信、电子商务交易、传感器网络等等,数据大都不是有限存储的数据集合,而是持续的数据流;处理该种类型数据的数据流数据库管理系统一般
随着计算机技术和网络技术的广泛应用,信息系统在规模、结构、功能层次及设计实现等各个方面均发生了很大的变化。在不同的硬件环境、操作系统以及通讯平台上开发具有正确性
随着互联网的迅速发展,网络已成为无处不在,无所不用的工具。然而,伴随而来的网络安全问题也成为全球瞩目的焦点。近些年来,对网络信息系统进行攻击的事件越来越频繁,每年以几何级