论文部分内容阅读
随着信息技术的飞速发展,数据正以空前的速度增长和累积,人们已经进入大数据时代。在大数据时代,数据越来越多地呈现出海量、高维等高复杂性特征。传统的数据处理方法在面对这些高维复杂性数据时,往往收效甚微,使得蕴含在这些数据中的信息或规律无法被探索和理解。因此,如何有效地从高复杂性数据中进行特征选择并进行分类已成为大数据时代数据处理所面临的基本科学问题之一。计算机对高维、复杂数据的处理和识别主要难度体现在特征选择和分类器设计上。特征选择是从一组特征中挑选出最佳的特征子集或者通过变换生成特征以降低特征空间维数的过程,分类就是根据已知的数据集来构造分类模型,通过这个模型来预测未知的数据集的类别。特征子集的选择通常包括一个特征子集评估和搜索方法等两部分的选择。特征子集的评估包括过滤法和包装法两种。搜索方法包括次优法和最优法。基于特征提取的基本原理是选择合适的变换能减少或去除信息冗余。变换分为线性变换和非线性变换两大类。对于非线性特征提取,主要是以流形学习为主导的维数约减理论和技术。已有流形学习方法主要侧重于研究数据的分布及如何更好地描述数据,以应用于维数约减、数据可视化方面,但与分类的关系不够紧密。基于统计学的贝叶斯理论模型和由Vapnik提出的支持向量机(Support Vector Machine, SVM)是占主导地位的两个分类模型。朴素贝叶斯假定(Naive Bayes assumption)对于给定的类,实例的所有属性之间是相互独立的。虽然由于属性间相互独立,对每个属性的参数就可以分别估计,使它尤其适合属性数量非常大的分类问题。然而在现实的分类问题中,这个假定通常是不能成立的。支持向量机的惩罚参数C和RBF核参数σ是影响分类性能的关键参数。诞生于20世纪50年代的智能优化算法通过模拟自然界生物的行为来解决优化问题,已经在模式识别等实际应用中得到了广泛的应用。智能优化算法主要有遗传算法、粒子群算法、差分进化算法、克隆算法等。本文主要提出一个非参判别式多流形学习方法用于特征提取,把流形学习更好应用到分类中;把智能优化算法用于朴素贝叶斯和支持向量机的分类中。通过智能算法从整个属性空间中选择一个最优属性子集,并且通过最优属性子集构建朴素贝叶斯分类器。通过把参数C和6融入个体编码中,以最大分类精度为优化目标,从而得到最优参数组合。另外,通过编码和设置合适的适应度函数,把特征子集选择和参数C、σ的优化同步进行,既降低了特征子集维度,又提高了分类精度。本论文的具体贡献包括:1、系统总结了特征选择的两种类型:特征子集选择和特征提取。特征子集选择包括特征子集评估和搜索方法等两部分的选择。其中特征子集的评估方法主要有过滤法和包装法两大类。搜索方法则主要分为最优法和次优法。特征提取的变换方式有线性和非线性两大类。介绍了分类器的两个工作阶段,比较了多种分类器并详细介绍了朴素贝叶斯和支持向量机两种分类器。总结了遗传算法、粒子群算法、差分进化算法和克隆选择算法的原理,分析了它们的工作过程。2、针对常规流形学习不适合多流形识别,提出一个非参判别式多流形学习方法用于特征提取。在提出的方法中,流形距离是局部的或是非参定义的,流形间的距离被定义为任一点和具有不同类别标签的k个最近邻点的均值之间的距离。而且目标函数是找到一个低维子空间,其中不同流形将投影得更远并且流形的局部结构信息可以保存。这非常利于分类。3、针对朴素贝叶斯假定的局限性,用智能算法进行特征选取(即最佳子集),并在此基础上构建改进朴素贝叶斯分类器。论文中总共提出了基于遗传算法、粒子群算法和差分进化算法等三种改进的朴素贝叶斯分类器,并把它们与决策树算法等多种经典算法进行比较。4、针对支持向量机的惩罚参数C和RBF核参数6优化,提出了基于粒子群算法和差分进化算法的优化方案。5、针对差分进化算法收敛性不高和局部搜索能力不强,分别提出了两种混合模型。第一种混合模型是在差分阶段融入反向学习提高种群多样性,在选择阶段采用相邻两代混合竞争增强收敛性;第二种混合模型是在差分进化基础上结合克隆选择算法,提高了种群的整体适应度和保持个体多样性的特点。两种混合模型都很好地用在了支持向量机的参数寻优中。6、提出了基于差分进化的支持向量机参数优化与特征子集选择同步方法。该方法通过编码和设置合适的适应度函数,删除了冗余特征,提高了分类精度。