基于模糊集的数量型关联规则算法研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:lightingguo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息爆炸的时代,信息过量已经成为大家面对的一个新的问题。人们迫切需要一些新的强有力的数据分析方法及工具来自动化、智能化地将海量的数据转化为有用的信息和知识。数据挖掘正是这样一种技术。其中,关联规则发现是数据挖掘中最重要的任务之一,它的目标是发现数据集中所有的频繁模式和强关联规则。目前,对于布尔型属性关联规则挖掘的研究相对比较成熟,但是对于数量型属性关联规则挖掘问题还需要进行广泛地研究。解决数量型关联规则挖掘问题的一个非常重要的方法就是将其转换为布尔型关联规则挖掘的问题。对于数量型属性当属性全部取值是有限个数时,只需将每个属性值映射为一个布尔型属性即可,当属性的取值范围很宽时,则需将其划分成为若干个区间,然后将每个区间映射为一个布尔型属性。然而在划分区间时往往容易出现一些问题,例如:若区间划分过小,即区间的划分个数过多时,会造成每一个单个区间的支持度都很低;将值划分成区间时,可能会造成一些信息丢失;在处理高偏度的数据时,连续属性离散化很难有效地体现出数据的实际分布情况;存在划分边界过硬的弱点等等。因此,对数量型关联规则挖掘算法的研究就转化为如何对数量型属性定义域的合理划分问题。虽然已经有人提出使用模糊集理论来解决这些问题,但是对于算法的具体实现的研究仍值得不断探索和深入。本文先阐述了有关数据挖掘的一些主要技术以及与关联规则相关的问题,接着讨论了模糊集合、模糊相似矩阵、模糊等价矩阵等模糊集理论的原理及特性,以基于模糊等价矩阵的模糊聚类方法为基础提出了分类数不确定的FEM-TC算法,描述了该算法实现的一般步骤:通过典型数据直接观察法对算法的正确性与有效性进行了验证;在确定了F统计量作为评判分类效果优劣的标准之后又对其中的关键步骤,即数据规格化和构造模糊相似矩阵,各自采用不同方法的分类结果进行了多方面的对比分析,确定了最佳的模型。然后,以基于目标函数的模糊ISODATA聚类方法为基础提出了分类数确定的FMI算法以及检验该算法分类效果的指标,描述了算法的具体实现,同样也使用一些典型的数据对FMI算法的正确性及有效性进行了验证与分析,明确了初始模糊划分矩阵的一些特点。在研究了对数量型属性进行分类或者区间划分的两种算法之后,本文又对经典的Apriori算法进行剖析,并在如何发现频繁项集和生成关联规则等方面对经典的Apriori算法进行了改进,即利用去尾法求子集再交叉关联,只需一次扫描数据库即可得到满足要求的关联规则。之后,本文又探讨了在计算支持度和置信度时如何合理使用模糊分类过程中产生的隶属度的值,提出了一些新的基于模糊隶属度的支持度与置信度的计算方法。最后,对某地区源头式煤税监控系统中的数据进行了挖掘分析应用,在一定程度上再次验证了本文所提出的几个算法的有效性和可用性,并展望了以后的研究方向。
其他文献
日本战国时代出现的武人派汉诗在日本文学史中是被边缘化的异质分子,拥有着鲜明的时代特点以及与日本文学整体特质相异的特征.本文搜集主要的武人派汉诗,挖掘武人派汉诗总体
目的:新疆滴灌春小麦及复播青贮玉米是在退出的低产低效的棉区上发展起来的,退出的低产田本身大多受盐碱危害,而滴灌小麦及玉米又无薄膜覆盖,土壤蒸发更加强烈,因此通过研究
玛纳斯河流域是新疆天山北坡地带经济发展的核心地区,位于我国西北内陆干旱区,气候条件干燥,雨量稀少,蒸发量大,水资源时空分布不均。另外,随着当地社会经济的飞速发展,水资
弱势群体应该被关注,无论是在经济地位上,还是在社会地位上,他们都处于弱势,但弱势群体对知识和阅读的渴望,和常人无差,甚至比常人更为强烈.公共图书馆进行全面阅读推广中,对
突然断电给人们正常的生活秩序和生产带来影响,致使特别重要的负荷造成重大的经济损失,所以高性能的应急电源已成为生产、生活中不可缺少的应急供电设备。本文首先分析了高性能应急电源在各种场合的必要性和重要性。介绍了国内外应急电源及逆变电源的研究现状,对当前国内外应急电源产品的特性、功能进行了分析。应急电源的逆变输出及其控制是本文研究的重点,文中以介绍TI公司生产的TMS320系列的一款适合逆变器输出电压控