基于等价类变换的快速关联规则挖掘方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：JK0803luowei

【摘要】

：

关联规则可以发现事务之间的相关关系,而且因具有实现简单、可解释性强等优点在很多领域中都有应用。然而数据量的不断变大使得传统算法往往不能及时地获取规则。因此,很多学

【作者】

：

田攀博

【出处】

：

哈尔滨工业大学

【发表日期】

：

2004年期

【关键词】

：

关联规则频繁项集哈希技术剪枝策略

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

关联规则可以发现事务之间的相关关系,而且因具有实现简单、可解释性强等优点在很多领域中都有应用。然而数据量的不断变大使得传统算法往往不能及时地获取规则。因此,很多学者都致力于研究如何提高算法的运行效率。本课题的主要研究工作是基于等价类变换(Equicalence CLAss Transformation,Eclat)算法进行的,Eclat算法充分利用了垂直数据库的优势,将统计项集支持度的过程转化为求取两个集合交集的过程。而Eclat算法在执行时需要通过频繁地计算交集获取项集的支持度,因此当集合交集计算效率较低时,频繁地计算交集将严重影响Eclat算法的执行速度。Eclat算法在运行过程中因存在大量非频繁候选项集而导致很多无效计算,为了解决该问题,本课题从剪枝策略的角度提出了Eclat_LSH和Eclat_LSHCF算法,从挖掘近似结果的角度提出了Sim-Eclat算法,具体如下:Eclat_LSH算法从减少需要比较元素的角度出发:(1)利用局部敏感哈希的思想,将计算两个大集合交集的过程,转化为求取若干小集合交集再累加的过程,减少了每个元素需要比较的次数;(2)Eclat_LSH算法在计算项集支持度的过程中,充分发挥了最小支持度的作用,对项集支持度上界进行评估,当评估到项集的支持度不可能满足筛选条件时,则立即停止计算。实验结果表明,利用Eclat_LSH算法进行频繁项集挖掘,能够减少计算量,加快算法的运行速度。Eclat_LSHCF算法从减少计算交集次数的角度出发:该算法利用了Takuma提出的数据结构Cardinality Filter(CF),CF可以快速地计算出两个集合交集的上界,因此可以将CF与Eclat_LSH算法结合,在计算项集支持度之前,先利用CF计算项集支持度的上界,然后利用该上界对非频繁项集快速剪枝。实验结果表明,该方法在一定情况下能够减少不必要的交集计算,加快算法的运行速度。Sim-Eclat算法采用近似计算支持度大小的方法加快挖掘速度,其思想是:采用MinHash技术快速估算项集的支持度大小,以达到加快算法运行速度的目的;另外考虑到估算支持度会存在误差的情况,提出了易混边界Boundary的概念,对于那些支持度的估计值在最小支持度阈值附近的项集,用真实的集合重新计算其支持度大小,这样做可以提高算法的挖掘精度。本课题还从理论上分析了Sim-Eclat算法是误差可控的。Sim-Eclat算法还将计算集合交集大小的过程,转换为用布尔数组来实现。实验结果表明Sim-Eclat算法有效地缓解了Eclat在计算项集的支持度时效率低下的问题,大大加快了算法的运行速度。

其他文献

浅谈施工企业项目经理职能前置的优越性

从有利于理顺与参建各单位的关系,有利于提高企业的管理水平和经济效益,有利于进一步开拓市场等方面阐述了项目经理职能前置的优越性.

期刊

胶新铁路铁路工程施工管理项目经理职能前置组织管理质量安全控制进度控制管理经济效益

基于广义塑性力学模型的金属粉末成形裂纹损伤研究

粉末冶金工艺是有着历史悠久的材料制备工艺,也是先进的零件加工工艺,其作为近净成形的零件制造工艺,具有环保、节能等优点,这也正符合我国现阶段向高端制造的转变,因此,受到

学位

粉末冶金压坯修正的Drucker-Prager Cap屈服模型硬化过程软化过程裂纹损伤

在非均匀环境下辅助通道法STAP处理的性能改善

分析了相控阵机载预警雷达空时自适应处理在非均匀环境下的不足,即辅助通道中杂波干扰与检测通道中目标信号由于有限次样本而存在相关性,进而引起信号相消现象.提出了一种改

期刊

相控阵机载预警雷达空时自适应处理非均匀环境辅助通道法Antenna phased arraysCommunication channels (infor

有源集成天线的时域有限差分法分析

将有源器件Gunn管的非线性集中模型直接编入时域有限差分算法,分析了有源天线的时域瞬态响应.计算结果基本上和实验结果吻合,为有源天线的分析设计提供了一条新的途径.

期刊

有源集成天线时域有限差分法非线性集中模型有源天线active integrated antennaFDTD methodnonlinear lumped

振动模态分析在浮置板轨道结构上的应用

随着城市轨道交通在国内的快速发展,列车运营所产生的振动及噪声污染问题将越来越突出.为此,在减振要求特殊地段采用浮置板轨道结构,而轨道结构的减振性能与其固有频率有关,

期刊

浮置板轨道轨道结构列车运营城市轨道交通振动模态分析动力特性减振性能计提系统快速发展urban rail transit modal ana

城市机动车尾气污染控制的综合对策体系研究

在综述城市机动车尾气污染的已有对策基础上，阐述了包括规划层次、管理层次、工程层次和车辆层次在内的综合对策体系，并就国内不同阶段所侧重的对策层次进行了探讨。

期刊

污染控制综合对策体系机动车尾气污染对策体系城市规划Vehicle exhaust Countermeasures system Urban plan

惠州市社会保障卡发行的主要问题及对策研究

社会保障卡,主要应用于人力资源社会保障领域政府社会管理和公共服务,推行社会保障卡是一项便民利民的利好政策。自面向社会公众发行以来,人社部门一直致力于“一卡多用,全国通用”的全覆盖目标。本文以社会保障卡作为切入点,立足协作性公共管理理论,通过对惠州市社会保障卡发行情况的广泛调研,查找出制约社保卡发行的主要问题,并在职能部门的协同合作基础上提出优化对策,为广大群众提供高效、无缝隙的社会保障方面的公共服

学位

社会保障社会保障卡协作性公共管理理论

水平隅撑对门式刚架柱力学性能的有限元分析

吊车梁端部设置水平隅撑来提高吊车梁稳定性的方法在一些工程中是经常采用的，但是对设置水平隅撑后刚架柱受力有什么变化很少考虑。为此，对设置吊车梁水平隅撑的单跨厂房进行整

期刊

公共建筑吊车梁隅撑门式刚架钢桂

基于等价类变换的快速关联规则挖掘方法研究

其他学术论文