【摘 要】
:
随着信息时代的到来,产生了海量的数据,这些大量数据的背后隐藏着许多人们所需要的信息和知识,人们迫切需要将这些数据转换成有用的信息。传统的频繁项目集挖掘以频繁度作为
论文部分内容阅读
随着信息时代的到来,产生了海量的数据,这些大量数据的背后隐藏着许多人们所需要的信息和知识,人们迫切需要将这些数据转换成有用的信息。传统的频繁项目集挖掘以频繁度作为衡量指标。这样就会导致一些频繁度低,但是效用值高、用户感兴趣的项目集不能被挖掘出来。为了解决这个问题而出现了高效用项目集挖掘。虽然目前已经有很多关于高效用项目集挖掘的研究,但是让用户来设定阈值对于用户来说是一个很困难的事情。如果用户设定的阈值过低,那么过多的高效用项目集将会产生,这就可能导致挖掘算法效率低下,甚至出现挖掘出来的项目集数量超出内存容量。反之将会导致没有高效用项目集产生。用户通过实验不断地调整阈值来得到最终需要的阈值,这一过程对于用户来说是非常繁琐的。为了解决上述问题,本文中提出了一种新的基于效用矩阵和索引的top-k高效用项目集挖掘算法,用户无需设定阈值,只需要给出要挖掘的项目集数量。本文的主要贡献包括:首先,在高效用项目集挖掘中,本文首次提出了利用项目集的真实效用值进行挖掘的算法。这样可以有效地在top-k高效用项目集挖掘中提高边界阈值。其次,本文提出了效用矩阵结构,避免为计算大量的项目集效用值而多次扫描数据库。再次,针对高效用项目集挖掘算法中失去了反单调性,在算法执行过程中无法进行剪枝的问题,本文中提出了基于索引结构的消减策略。最后,本文摒弃了以往由短项目集连接生成长项目集的固有思想模式,根据top-k高效项目集挖掘中的特点,采用了自顶向下的挖掘过程。既可以有效地提高边界阈值,又能减少在挖掘过程中产生的项目集数量。通过理论分析和实验评估,验证了本文提出的基于效用矩阵和索引的top-k高效用项目集挖掘算法的正确性和高效性。
其他文献
遗传规划在预测、分类等领域已经有了很多应用研究。由于遗传规划是通过生成具体的预测函数、分类函数来实现预测和分类的目的,因此对于既需要一定的预测、分类精度,又要研究
本文对数据仓库中的访问控制策略和访问控制模型进行了分析,结合OLPP技术的应用,探索出一种基于角色的用谓词组合形式描述的数据仓库访问控制模型,该模型的核心思想是将访问权限
本文针对WLAN中OFDM调制解调对降低功耗的要求,介绍了一种改进的流水线FFT算法结构,该结构将N点DFT分解成二维点DFT的组合,与传统流水线结构相比,该结构能有效减少移位寄存器的读
本文对OpenMP到MPI转换中的数据流分析技术进行了研究。文章描述了一种为取得全局一致数据划分的数据流分析方法的研究成果,较之AFT系统中的SMP并行分析方法,它在两方面得到增
随着Web 服务的应用和发展,基于Web 的分布式技术和应用已成为重要的发展方向,这就要求必须保证Web 服务应用层SOAP 消息的安全通信。而现有的安全传输方案,如SSL/TLS 等不适
随着计算机网络技术和密码学的不断发展,门限秘密共享技术已开始应用于网络安全的许多领域。门限秘密共享系统有别于传统密码系统,他将密码管理及对密码监督的责任分散,提高
本文将智能agent和多agent系统的建模与仿真方法引入到生化网络仿真中,设计并实现了基于多agent技术的生化网络仿真平台,并在此基础之上,对细菌趋药性中的趋药性和自适应现
本文论述了国内外防火墙系统和防火墙中内容过滤系统的研究现状和发展趋势,并对其优缺点进行了比较.通过对内容过滤及其流行过滤模式认真研究,在对HTTP,FTP和邮件等应用服务
如何从协议规范出发生成满足一定覆盖标准的测试序列和测试套是协议一致性测试中的一个核心问题,现有的协议一致性测试序列和测试套生成方法大部分都是基于协议的FSM模型
入侵跟踪是计算机网络安全领域的一个重要技术,其目的是跟踪攻击的真正来源,为报警提供精确的信息,以及事后的犯罪举证和修补网络系统安全漏洞提供可靠依据。现实网络中“黑