论文部分内容阅读
随着人们对未知领域探索的不断深入研究和测试技术的发展,会产生海量的数据,因此在众多数据中发现有用的信息已经成为一项重要的研究课题,期望通过这样的研究可以有效帮助组织决策的制定。本文针对以上应用背景,开展海量高维数据下的特征选择方法研究。特征选择就是这样一种在大量特征中寻找关键特征的有效方法,即根据某种评估标准,从原始特征空间中除去不相关、冗余特征,以达到降低数据维数的目的。本文在分析相关特征选择方法的基础上提出了基于CUDA平台的分层多组粒子群算法的特征选择,旨在通过特征选择算法本身和异构平台搭建两个方面对特征选择进行改进。论文首先提出了基于分层多组粒子群算法的搜索策略,该算法是对标准粒子群算法进行改进,将种群分为两层(顶层粒子群和底层粒子群),各层进行独立的粒子群算法,并在每次循环之后交换两层之间的粒子信息,以保证种群的进化性能,且该算法得到了基于概率学的分析论证。但该算法执行时间会相对较长,因而速度较于普通的粒子群算法要慢。鉴于此,本文利用与该算法相契合的GPGPU异构平台—CUDA(Compute Unified Device Architecture)来有效的避免这一短处,CUDA是NVIDIA公司推出了一款新型并行计算架构,可以极大的提高运算速度,提高运行效率。接着本文将就前文提出的分层多组粒子群算法应用于特征选择。在此基础上,本文基于粗糙集理论提出了特征选择方法的评估函数,评估函数是特征选择过程中的关键环节之一,主要作为选择特征子集的标准。最后本文最后将本特征选择方法应用于UCI(University of California Irvine)数据集,通过对比仿真实验证明本文提出的特征选择方法较好。