论文部分内容阅读
随着科技日新月异的进步,各种各样的数据充斥着生产生活的各个领域,如何有效地获取数据中的精华并运用到各行各业中去,成为科研人员关注的焦点。基于这一实际需求,数据挖掘技术应运而生。关联规则挖掘作为数据挖掘领域的重要分支也一直受到科研人员的重视。通过生成关联规则获得项集之间隐藏的关联,对于决策的提出有十分有效的指导意义。 频繁项集的获取是生成关联规则最关键的步骤,针对频繁项集挖掘的科研工作主要从两个方面展开:应用扩展和算法效率提升。前者发展出了最大频繁项集,高效益项集,概率频繁项集等等;后者主要是针对各类频繁项集的挖掘算法提出时间空间上的改进。 本文着眼于频繁项集挖掘,从传统数据到不确定数据以及数据流,详细回顾了经典的挖掘算法及其相应改进方法。在深入了解与学习这些科研成果的同时,发现已有的不确定数据挖掘算法虽然考虑了项目的出现概率,但是忽略了项目本身重要程度,导致出现概率比小,但是含有重要项目的项集被舍弃,可能使挖掘结果丢失重要信息。另外考虑到频繁项集挖掘时阈值选取的实际困难,本文从应用扩展的角度出发,在概率频繁项集的基础上,提出了高期望权重项集(HEWIs)的Topk挖掘,有效地解决了这两个问题。具体的内容有: (1)结合不确定数据的频繁项集挖掘,给出了Topk HEWIs挖掘的概念与意义,并在经典概率频繁项集挖掘算法MBP和UF-Growth的基础上,提出了针对Topk HEWIs挖掘的算法,TKWMB和TKWUG。两个算法各自代表一类算法,从层次递进和模式增长两种挖掘方向出发,实现了Topk HEWIs的挖掘。本文通过在多个数据集上运行两种算法,对比了算法的效率差异。实验表明TKWUG算法在各类数据集上的运行都比较稳定,随着k选取值的改变,运行时间呈正比变化,且在稀疏集上运行比较高效;TKWMB算法随k值变化起伏比较剧烈,在稀疏集上虽然运行速度快,但是却容易内存溢出。 (2)考虑到近年数据流的大趋势,本文选取平稳性较好的TKWUG算法扩展出TWUS完成了数据流的Topk HEWIs挖掘。本文考虑了数据流单次单向无限的特性,在滑动窗口技术的基础上,结合了TKWUG和CPS算法的特性,给出了TWUS算法的实现过程。TWUS算法将当前窗口内的数据维护到WUSTree上压缩存储,通过增量式更新树结构与对应的索引头表体现数据流动。算法采取局部更新以及延时处理的方式,有效且高效的响应用户的挖掘请求,实现了Topk HEWIs的数据流挖掘。