基于自适应算法和并行计算的类关联规则挖掘研究

来源 :青岛理工大学 | 被引量 : 0次 | 上传用户:wangligang987123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的进步和人类社会文明程度的不断提高,人们需要处理的数据量越来越大。在数据量如此丰富的信息时代,如何从如此浩瀚的数据中挖掘出我们所需要的知识和信息成为一个十分现实和重要的问题。关联规则的挖掘是数据挖掘中的一个重要分支。而在现实生活中,我们更需要考虑关联规则和分类之间是否存在某种对应关系,这就是一种特殊的关联规则——类关联规则。一方面在现实生活中,描述数据元素的属性可能是随时变化的,变化的属性会增加很多有用的信息,但是也会增加挖掘的难度和复杂度。另一方面,现有的类关联规则挖掘算法大多都是顺序算法,即使用一个处理器从头到尾按部就班的执行,这种算法在当今计算机普遍采用多处理机系统的条件下显得格格不入,效率低下,不利于实际的应用。本文针对以上两点问题,把自适应挖掘算法和并行思想融入到类关联规则的挖掘之中,改进了传统的CAR-Miner算法。主要研究内容如下:⒈简单介绍了数据挖掘、关联规则和类关联规则的相关概念和定义,以及类关联规则挖掘问题的国内外研究现状。⒉传统的类关联规则挖掘算法只保证了挖掘结果的完备性,前提是描述数据元素的属性集固定不变。而在实际情况中,用于描述数据集中数据元素的属性数量可能会动态增加,这时如果重新运行一遍传统算法需要花费太多的时间。因此,针对属性增加的情况,我们提出了一种自适应类关联规则挖掘算法,这种算法能够对变化的属性做出较快的反应,只挖掘那些之前没有产生的新规则,这样就充分利用了第一次的挖掘结果,提高挖掘效率的同时,保证了挖掘结果的完备性。⒊针对传统的顺序算法效率低下的缺点,本文用并行思想对其进行改进。我们采用了独立类和共享类两种并行策略,对算法做并行化处理,并通过实验验证了两种策略的有效性。之后,我们又对共享类进行了改进,使其能够在更小的粒度上进行操作,我们又通过仿真实验对传统算法、共享类和新算法的效率进行了对比。通过分析仿真实验的结果可以得出,改进的算法具有现实的可行性和有效性,大大提高了类关联规则的挖掘效率。但是我们的研究也并不完善,仍然有很多不足和需要改进的地方,比如我们提出的改进算法只适用于旧有属性及其取值保持不变而新属性及对应的取值加入数据集的时候,这就使我们提出的自适应算法的适用范围受到了极大的限制;我们也没有考虑到对挖掘结果施加限制条件,筛选出用户所需要的规则等等。这些都是我们以后需要进一步研究的方向。
其他文献
当前,多核计算已成为当前计算机技术发展的主流技术之一。如果多核处理器上运行的程序自身是串行的,那么每个时刻只能有一个处理器核运行程序,而其他的处理器核都处于空闲状
尽管科技在以惊人的速度发展,但并不能把灾难全部准确及时地预测出来。地震、海啸、火灾等自然灾难仍在肆虐地吞噬着无数生灵。灾难过后如何高速、有效的救灾也成为了近来人
在电信运营商领域,离网预测是企业决策者用来发现潜在离网用户(即停用运营商服务)的主要手段。目前,离网预测都是基于特征工程和传统机器学习算法,例如逻辑回归、决策树、神经网络
H.264标准是由国际电信联盟ITU和国际标准化组织ISO共同制定的新一代视频编码标准。与以往的标准相比,H.264的编码效率有了显著地提高。与此同时,H.264性能上的改进也带来了