基于智能优化的特征选择及分类方法研究

来源 :武汉大学 | 被引量 : 5次 | 上传用户:zuhai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,数据正以空前的速度增长和累积,人们已经进入大数据时代。在大数据时代,数据越来越多地呈现出海量、高维等高复杂性特征。传统的数据处理方法在面对这些高维复杂性数据时,往往收效甚微,使得蕴含在这些数据中的信息或规律无法被探索和理解。因此,如何有效地从高复杂性数据中进行特征选择并进行分类已成为大数据时代数据处理所面临的基本科学问题之一。计算机对高维、复杂数据的处理和识别主要难度体现在特征选择和分类器设计上。特征选择是从一组特征中挑选出最佳的特征子集或者通过变换生成特征以降低特征空间维数的过程,分类就是根据已知的数据集来构造分类模型,通过这个模型来预测未知的数据集的类别。特征子集的选择通常包括一个特征子集评估和搜索方法等两部分的选择。特征子集的评估包括过滤法和包装法两种。搜索方法包括次优法和最优法。基于特征提取的基本原理是选择合适的变换能减少或去除信息冗余。变换分为线性变换和非线性变换两大类。对于非线性特征提取,主要是以流形学习为主导的维数约减理论和技术。已有流形学习方法主要侧重于研究数据的分布及如何更好地描述数据,以应用于维数约减、数据可视化方面,但与分类的关系不够紧密。基于统计学的贝叶斯理论模型和由Vapnik提出的支持向量机(Support Vector Machine, SVM)是占主导地位的两个分类模型。朴素贝叶斯假定(Naive Bayes assumption)对于给定的类,实例的所有属性之间是相互独立的。虽然由于属性间相互独立,对每个属性的参数就可以分别估计,使它尤其适合属性数量非常大的分类问题。然而在现实的分类问题中,这个假定通常是不能成立的。支持向量机的惩罚参数C和RBF核参数σ是影响分类性能的关键参数。诞生于20世纪50年代的智能优化算法通过模拟自然界生物的行为来解决优化问题,已经在模式识别等实际应用中得到了广泛的应用。智能优化算法主要有遗传算法、粒子群算法、差分进化算法、克隆算法等。本文主要提出一个非参判别式多流形学习方法用于特征提取,把流形学习更好应用到分类中;把智能优化算法用于朴素贝叶斯和支持向量机的分类中。通过智能算法从整个属性空间中选择一个最优属性子集,并且通过最优属性子集构建朴素贝叶斯分类器。通过把参数C和6融入个体编码中,以最大分类精度为优化目标,从而得到最优参数组合。另外,通过编码和设置合适的适应度函数,把特征子集选择和参数C、σ的优化同步进行,既降低了特征子集维度,又提高了分类精度。本论文的具体贡献包括:1、系统总结了特征选择的两种类型:特征子集选择和特征提取。特征子集选择包括特征子集评估和搜索方法等两部分的选择。其中特征子集的评估方法主要有过滤法和包装法两大类。搜索方法则主要分为最优法和次优法。特征提取的变换方式有线性和非线性两大类。介绍了分类器的两个工作阶段,比较了多种分类器并详细介绍了朴素贝叶斯和支持向量机两种分类器。总结了遗传算法、粒子群算法、差分进化算法和克隆选择算法的原理,分析了它们的工作过程。2、针对常规流形学习不适合多流形识别,提出一个非参判别式多流形学习方法用于特征提取。在提出的方法中,流形距离是局部的或是非参定义的,流形间的距离被定义为任一点和具有不同类别标签的k个最近邻点的均值之间的距离。而且目标函数是找到一个低维子空间,其中不同流形将投影得更远并且流形的局部结构信息可以保存。这非常利于分类。3、针对朴素贝叶斯假定的局限性,用智能算法进行特征选取(即最佳子集),并在此基础上构建改进朴素贝叶斯分类器。论文中总共提出了基于遗传算法、粒子群算法和差分进化算法等三种改进的朴素贝叶斯分类器,并把它们与决策树算法等多种经典算法进行比较。4、针对支持向量机的惩罚参数C和RBF核参数6优化,提出了基于粒子群算法和差分进化算法的优化方案。5、针对差分进化算法收敛性不高和局部搜索能力不强,分别提出了两种混合模型。第一种混合模型是在差分阶段融入反向学习提高种群多样性,在选择阶段采用相邻两代混合竞争增强收敛性;第二种混合模型是在差分进化基础上结合克隆选择算法,提高了种群的整体适应度和保持个体多样性的特点。两种混合模型都很好地用在了支持向量机的参数寻优中。6、提出了基于差分进化的支持向量机参数优化与特征子集选择同步方法。该方法通过编码和设置合适的适应度函数,删除了冗余特征,提高了分类精度。
其他文献
原子磁力仪作为一种量子传感器,由于具有高性能和易于小型化的特点,正逐渐成为磁探系统中的核心传感器。随着磁探系统应用的多元化,磁传感器也向着多个指标的高性能发展。为
本文主要研究了群体机器人系统的协同适应性问题。目的是通过基于局部信息交互下分布式控制、优化与学习,实现群体机器人系统对于动态复杂环境的适应,进而揭示群体智能系统中
本文分析了电信产业价值创新的层面,指出从低到高,电信产业价值创新可分为三个层面:产品层次创新企业层次创新和产业层次创新,然后分析了各个层次创新的具体策略。
礼物是物质文化研究的重要议题。礼物研究引发了人们在礼物交换中对复杂的物我关系、社会交往、主体与客体边界、文化象征、人性基石等话题的深刻思考。与此同时,物脱颖而出,
引火归原法用于阴不敛阳、虚阳上浮之证.笔者应用该法治疗慢性咽炎、高血压病、低热、口腔溃疡等病,疗效较好,兹介绍如下.
近几年来,我们运用“引火归原”法冶疗高血压(肾虚型)31例,经临床观察疗效满意,特整理报导如下,以就正于同道。 In recent years, we have used the method of “treating
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
本文对固定资产减值准备形成规定、固定资产减值准备的计提方法几个方面进行研究,并在这写分析的基础之上提出了完善固定资产减值准备的建议和对策。
票据善意取得在票据法中占有重要的地位,对保护票据交易的安全尤为重要,但其构成在理论界存在较多异议,本文从权利起源、权利转移的方式、取得票据时的主观心态和是否支付对
航天飞行环境中的失重、应激及电离辐射等多种因素均可引起机体的代谢和内分泌紊乱,从而影响宇航员的健康。失重引起机体心血管、骨骼及血液系统功能改变的研究已有大量报道,