论文部分内容阅读
粗糙集理论作为一种有效的数据挖掘分析工具,已广泛应用于知识发现、机器学习和图像处理等领域。属性约简与规则获取是粗糙集理论的核心研究内容之一,在过去的30多年里,取得了丰富的研究成果。然而,随着通信、传感、人工智能等信息技术地飞速发展,很多行业中的数据日益呈现出混合属性的特征,且累积的数据量在以惊人的速度不断增长。虽然大数据中所蕴含的不可估测的价值已经成为学术与产业界的共识,备受许多国家的关注,但是,只有从数据中挖掘出有意义的知识才能真正发挥海量数据的潜在价值。如何从多粒度、多层次的角度对这些海量的混合型数据进行有效处理,成为当前数据挖掘领域中具有挑战性的研究课题。本文主要研究基于邻域多粒度粗糙集的混合数据知识获取方法,内容包括:基于双重粒化准则的邻域多粒度粗糙集快速约简算法为了有效降低属性约简计算过程中的迭代次数,实现邻域多粒度粗糙集模型下的快速属性约简算法,论文基于双重粒化准则,深入分析不同属性子集序列和邻域半径对正域的影响,结合正域在属性子集和邻域半径共同作用下的单调性,提出一种基于双重粒化准则的邻域多粒度粗糙集快速约简算法,并通过理论分析与实例对比验证了算法的有效性和优越性。基于MapReduce模型的邻域多粒度粗糙集模型并行约简算法为了能够有效处理数据类型多样的分布式海量数据,并降低属性约简算法的时间复杂度,以邻域多粒度粗糙集模型为理论基础,从hash散列、正域计算、边界样本删减三个方面提取并行点,设计了一种基于MapReduce模型的邻域多粒度粗糙集模型并行约简算法。多种数据集下的实验对比分析验证了所设计算法的有效性。基于最大粒的悲观邻域多粒度粗糙集规则获取算法为了从多粒度、多层次的角度处理数值型或混合型数据,基于邻域多粒度粗糙集模型,通过计算邻域多粒度条件粒与决策粒,分析条件粒在规则获取过程中的冗余关系,进而枝剪规则获取过程中的冗余条件粒,在此基础上,设计了一种较为高效的基于最大粒的悲观邻域多粒度粗糙集规则获取算法。为弥补给定邻域半径在实际应用中的缺陷,在邻域多粒度粗糙集模型的基础上进一步引入自适应半径,计算基于双重准则邻域多粒度粗糙集模型的最大粒,提出了基于最大粒的双重准则悲观邻域多粒度粗糙集规则获取算法,并进行了实验对比分析。