论文部分内容阅读
基于数据的机器学习是一种重要的数据挖掘方法,也是现代智能技术中的重要内容。近年来,粗糙集与支持向量机作为两种主要的数据挖掘方法获得了大量的研究。基于结构风险最小化的支持向量机方法能够较好地解决小样本、非线性、过学习、维数灾难和局部极小等问题,具有很强的泛化能力。但是作为一种新型的机器学习方法,在解决实际问题时还存在一些问题。本文结合粗糙集理论对支持向量机方法从两个方面提出了几点改进;一方面利用粗糙集理论对样本集进行预处理,首先提出基于邻域粗糙集的样本选取,其次分析了属性约简对支持向量机的影响,并提出基于属性约简的支持向量机选择性集成。另一方面利用模糊理论与粗糙集对支持向量机在处理不确定问题方面进行了几点改进。论文的研究成果主要包括以下几个方面:1.针对支持向量机方法对于高维大规模数据无法直接处理和对异常样本敏感问题,提出一种基于邻域粗糙集数据预处理的支持向量机分类算法。该算法从两个方面对训练样本集进行预处理,一方面利用邻域粗糙集模型中对象邻域的上、下近似,寻找两种类别的交界部分,从而减小问题规模;其次通过对交界部分样本进行混淆度分析,对于那些混杂在另一类样本中的异常样本或噪声数据进行剔除。另一方面利用属性重要性度量对样本集进行属性约简与属性加权处理。2.基于粗糙集理论的属性约简往往会产生多个等价的属性约简集合,每个约简集合包含的属性是部分或者完全不同的,它们从不同的角度对原始系统进行描述,具有一定的差异性和互补性。本文在对比研究了现有集成方法的基础上提出了一种基于粗糙集属性约简的选择性支持向量机集成方法。3.在分析了现有模糊支持向量机隶属度计算方法的基础上,提出一利基于粗糙一类支持向量机的隶属度确定方法。该方法利用粗糙集思想构造一个最小粗糙球,分别得到对应粗糙球的上近似、下近似与边界区域,然后依据样本在超球中的位置对分布在下近似、边界域和粗糙球以外的样本,分别采用三种不同的方式计算其各自的隶属度。4.提出一种基于模糊粗糙集的不确定支持向量机方法。在实际的应用系统中,由于研究对象的复杂性和对研究对象认识能力的局限性,往往得到一些含有不确定信息的信息系统,例如样本分类的不确定性。在这类问题中样本不能明确地归为某一类,只能以一定概率或一定隶属度属于某一类。本文利用一类特殊的核函数构造了一种模糊等价关系,接着以这类核函数构造的模糊等价关系为基础给出了模糊粗糙集的定义,然后利用模糊粗糙集中的下近似算子为每个训练样本分配隶属度,最后将得到的样本隶属度融入到传统支持向量机模型中,得到一个新的优化问题。