基于概念格的关联规则挖掘研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:lastkaixin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联规则挖掘作为数据挖掘领域中最活跃的研究分支之一,其目的是发现数据集中潜在的、新颖的、并为人类所理解的数据项间的关系。概念格理论,又称形式概念分析,用于概念的发现、排序和显示,其核心数据结构是概念格。概念格通过概念间的泛化和特化关系来表示知识。作为一种知识表示模型,概念格能够为关联规则挖掘提供有力支持。本文分析了现有关联规则挖掘算法中存在的主要问题。针对多次数据集扫描、候选集过多等问题,提出了在经典概念格中自顶向下、通过频繁概念逐层求取所有频繁项集的关联规则挖掘算法。针对规则冗余、无法及时更新等问题,优化了量化扩展概念格的结构,提出了事务集新增、删除和修改时格上的更新操作,通过将更新操作添加到Godin算法的建格过程中,形成了一种量化扩展概念格的增量式建格算法;根据最小等价内涵、封闭集定义了非冗余关联规则的模式,证明了由该模式形成的非冗余规则集是完备的;以此为基础设计实现了基于量化扩展概念格的增量式非冗余关联规则挖掘算法及约束型关联规则的挖掘算法。通过对算法在不同形式背景下执行时间的分析,验证了本文提出的“基于经典概念格的关联规则挖掘”改进了Apriori算法在“求取频繁项集”和“生成关联规则”两个模块的执行效率;“基于量化扩展概念格的关联规则挖掘”在“生成关联规则”模块的效率和质量两方面都优于上述两个算法。通过对算法特性的总结,得出当存在大量频繁项集时,“基于量化扩展概念格的关联规则挖掘”性能最优;当形式背景规模较大、频繁项集数量较少时,虽然因建格时间过长,整体性能不如其余两个算法,但“基于量化扩展概念格的关联规则挖掘”可以根据事务变更及时更新并且能够快速挖掘约束型关联规则,因此该算法实用性更强。
其他文献
上个世纪八十年代,电子邮件开始在全球范围内广泛使用。其快捷、方便、廉价的特点,受到了广大网民的喜爱。伴随着互联网的大规模普及,电子邮件逐渐成为一种常用的通信方式。
随着网络技术的飞速发展,多媒体数据逐渐成为人们获取信息的重要来源,人们可以轻松地从网络上获取各种各样的多媒体信息。与此同时大量诸如非法复制、伪造、篡改等侵犯多媒体
传统的工作流模型往往只注重活动以及活动之间的关系,而忽略了活动的主体角色和角色之间的交互关系。而对于流程重组主要集中在理论和优化算法研究方面,缺乏理论与实践相结合的
由于网格环境的开放性,使得它不论是进行并行计算,还是进行信息的共享与互操作,都会面临各种各样的安全问题。同时,网格的跨管理域、异构和网格资源的广域分布性、动态性、异
对称密码算法专用描述语言(Special Description Language for the Symmetric Cryptographic Algorithm, SDLSCA)主要应用于密码学这一特定领域,是为了方便密码学专家描述密
科学和工程应用领域中的很多问题都可以通过数学建模转化为函数优化问题(Function Optimization Problems, FOPs),因而对函数优化问题的研究具有十分重要的理论和实际意义。免
随着Internet的快速发展与普及,如何在开放、动态、难控的网络环境下实现各类资源的共享和集成已经成为计算机软件技术面临的重大挑战之一,流程建模技术也受到更为广泛的关注。
随着互联网的发展和智能终端的普及,短信、微博、微信等现代信息传播手段被广泛应用,它们都具有使用便捷、传播快速等优点。相对而言,短信对受众的年龄与知识水平、移动终端
进入21世纪以来,各类网站社会性网络化的倾向明显,越来越多的网站集购物、交友、聊天、论坛和博客于一体,为用户提供全方位的服务。作为个性化服务的一种方式,个性化推荐系统能够
随着网络通信技术的飞速发展,多播路由的通信方式受到普遍重视。但当前多播路由算法的研究大多针对无约束多播路由问题和时延受限多播路由问题,在应用中缺乏典型性和实效性。本