基于密度网格的关联规则开采及聚类算法

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:woshcn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联规则是数据挖掘的主要模式之一,用于发现满足给定支持度和置信度的属性之间的依赖关系。目前已经存在很多挖掘布尔型关联规则的经典算法及改进算法,由于布尔型属性值固有的“0-1”特性,这些算法开采出来的规则不会很多。在挖掘数量关联规则时,虽然人们在数量属性的离散化方面做了大量工作,使挖掘算法在时空性能方面有了很大提高,但由于数量类型属性值的连续性,算法仍面临返回大量规则的问题。为了解决规则过多难于理解的问题,本文在研究经典聚类算法的基础上,综合了基于密度算法可以发现任意形状聚类和基于网格算法处理速度快的优点,提出了密度和网格相结合实现关联规则开采和聚类的方法——基于密度网格的关联规则开采及聚类算法,实现对数量关联规则的开采,并在此基础上聚类近似的相邻规则,得到更具概括性、更易于理解的一般规则。该算法以元组的形式读取源数据,并对数量型连续属性值分段离散化,在提取关联规则集以后,聚类右部满足分段标准的关联规则。算法在必要时检验关联规则的准确性,通过改变参数最终获取更好的规则。为了验证算法的正确性与有效性,构建了一个关联规则开采及聚类系统。在对算法进行理论分析的基础上,对算法的性能和正确性进行了实验。理论分析与实验结果表明,该算法大大提高了数量关联规则开采的速度,减小了最终得到的关联规则的数目,在提高规则的可理解性方面取得了实际效果。
其他文献
经济管理问题中的优化问题无处不在.该文针对几个经典的管理问题进行了阐述和分析.如原料库存优化问题,服务销售系统供应链模型设计,伙伴挑选问题与模型设计.并用数学公式表
论文首先介绍了移动计算环境的形成过程,并对数据同步、移动计算环境和小范围混合P2P架构等相关概念作了详细阐述。然后,以传统的数据同步技术和现有的主流商业同步产品实现
随着计算机存储和传输技术的发展,数字作品的版权认可成为热门的话题。数字水印是嵌入到数字作品中的不可见信息,可用于保护数字作品的版权和完整性。近几年来,数字水印方面
随着互联网络和多媒体技术的发展,基于Internet的多媒体交互平台越来越成为人们注意的焦点。 本文以建立一个基于ActiveX控件的多媒体交互平台为目标,对其中的若干关键问题进行
该文以中国石油天然气集团公司科研项目作为研究背景,在深入研究JSP技术的基础上,为中国石油住房补贴管理中心开发了一套跨平台、跨网络、统一界面、易于扩展和维护的中油住
Internet技术的不断发展,使网络安全问题越来越受到人们的不断关注。出现了一系列保障网络安全的技术,如防火墙、网络加密技术等等,但这些技术都是被动地保护网络或主机免受攻击
IPv6是“因特网协议第六版”的缩写,是由IETF设计的下一代因特网协议,目的是取代当前的因特网协议第四版(IPv4)。IPv4在过去的应用具有辉煌的业绩,但是现在已经露出许多弊端
视频点播(VOD-Videe On Demand)是多媒体技术与网络技术发展下的一个产物,是一项崭新的信息服务技术.它满足了人们自主收看节目、随机获取信息的需求,为我们的生活和学习带来
Web GIS在当今信息与网络飞速发展的今天是一种必然的趋势,WebGIS面临着多方面严峻的挑战。元数据是关于数据的数据,无论数据集采用怎样的操作,其所需要的元数据内容几乎是不
主动数据库系统一般可认为是由数据库和建立在数据库上的主动规则集构成。主动数据库规则的形式一般为ECA规则。但是,由于规则集中的规则可能相互作用、相互影响,从而使规则