完全频繁项集挖掘算法及其在分类中应用研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:wangwei07863
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会科技的进步,信息量呈几何级增长,如何从大量信息中提取出潜在相互关联的知识集合体,成为当前数据挖掘领域中迫切需要解决的一个问题。频繁项集的提出,为解决该问题提供了一个有效的方法。频繁项集是指从数据中提取出满足支持度阈值的的信息集合体,它包含着大量潜在有用信息,能够有效地为人类提供决策支持。目前基于Apriori算法思想的完全频繁项集挖掘算法能够有效地实现稀疏型数据集和短模式下的挖掘工作,但在密集型数据集和长模式下,挖掘效率不高,因此应用受到很大限制。   本文针对当前完全频繁项集挖掘算法在密集数据集和长模式挖掘上存在的效率问题,提出了一种Apriori改进算法,该算法引入垂直比特数据表示方法以及交叉计数方式,利用索引向量表生成候选二项集,同时将非频繁二项集用于候选项集的剪枝,并在计数阶段,采用前缀数组数据结构优化计数方式。实验结果表明,经改进后的Apriori算法能够有效地挖掘密集数据集和长模式下的频繁项集。为了进一步提高计数的效率,在前文研究的基础上,引入差集思想,计数由之前的完全标识集交叉计数转化为差集标识集计数,从而迸一步地提高了Apriori算法的运行效率。本文将频繁项集研究成果应用于分类中。传统的分类算法存在分类过程黑箱操作,分类结果无法解释的缺点,而基于频繁项集的关联规则分类算法能够有效解决上述问题,但由于缺乏有效的规则评价指标,分类精度普遍不高。鉴于此,本文提出一种新的关联规则分类算法。它引入了兴趣度规则评价指标,有效地删除分类信息少的冗余规则,并利用权重准则对规则重要性进行排序,进而达到提高分类精度的目的。
其他文献
随着多媒体网络和计算机技术的进步,视频图像处理技术得到了迅速发展。在无线多媒体网络中,从多个不同类型传感器获得的视频图像具有容量大、信息内容丰富和高分辨率等特点,
乳腺癌是危害中年妇女身体健康的最常见的恶性肿瘤之一,目前预防与治疗乳腺癌的关键在于早发现,早诊断,早治疗。临床上乳腺癌诊断的主要方式为:通过医生阅读乳腺钼靶的图像信息,查