基于关联规则的分类算法研究及应用

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:menlyseven
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联分析是一种在海量数据库中揭示目标潜在关系的重要的数据挖掘方法,在一篮子分析等商业数据挖掘领域得到广泛的应用,关联分析的算法研究在近40年来一直是数据挖掘的重要内容。本文研究了关联分析算法及其在分类问题。 ㈠对Apdori和FP-Growth两种重要的关联规则挖掘方法的优点和缺陷进行了分析,并在此基础上提出了一种由多项集至一项集的横向挖掘思路FP-Length算法,该算法在比Apriori-type算法有很大的速度提升的前提下,有效的解决了FP-Growth漏解的不足,而且在速度和灵活度上突显其非常适合于处理条件关联规则挖掘问题。 ㈡将关联分析算法延伸至分类问题上,创新的提出一种基于类别的关联规则挖掘算法CACA,该算法对数据库中的属性按类别进行预筛选,从而大大减少搜索组合的数目,将关联分类算法传统的“规则挖掘-规则梳理(建立分类器)-分类”的三步骤模式改造为两步骤模式,设计出有序规则树,既缩短了算法耗时,又建立起以紧规则为导向的搜索机制提的能平台。 ㈢对紧规则进行重新定义并证明了新的紧规则定义具有唯一性。结合CACA算法,提出了两条面向分类规则的剪枝规则和一条创新性的面向紧规则集的剪枝规则。紧规则的定义和剪枝规则的提出,在结构上完备了以紧规则为导向的搜索机制和进一步提高了算法的速度。数据试验证明,剪枝技术提高了算法速度,缩小搜索空间。 ㈣结合聚类分析方法对现有的属性模糊划分方法进行改进,使模糊区间更贴近数据分布状态。通过改造CACA算法的存储结结构,成功将模糊机制引入到基于类别的关联规则挖掘算法(CFACA),改善了模糊关联过分类算法的速度性能。最后,将CFACA算法应用到移动通信业的客户成长性问题中,分析其应用效果,并对搜索到的分类规则作为一种经验知识加以分析,探讨客户成长性的特点。
其他文献
本论文应用随机分析、随机微分方程、鞅论等方法,研究了最优控制模型,并将研究成果应用于金融保险、风险控制、收益分配等经济领域.本文组织结构如下:  第1章简要介绍随机最
本文研究以下两类著名的非线性方程的周期波解以及它们的极限.第一类是Camassa-Holm方程 ut+2kux-uxxt+auux=2uxuxx+uuxxx. (1) 第二类是广义Camassa-Holm方程 ut+
本文考虑的是具有部分耗散的三维磁流体方程解的整体存在唯一性问题,我们证明了如果初始值u0,b0满足‖u0‖H1+‖b0‖H1≤(E),其中(E)是一个充分小的正数,那么我们所考虑的方程具