论文部分内容阅读
随着经济水平和信息技术水平的高速发展,当今社会已经完全进入了数据时代。但是,这些数据都具备较高的维度,并且数据中很多特征都是无用的,这些特性会造成数据存储空间利用率低下、分类性能降低、运行效率低下等诸多问题。所以,快速而有效地找到最优的数据是必须要考虑并解决的问题。特征选择作为数据预处理的重要手段,在处理大量高维数据以解决分类问题时,可以有效地提高分类问题的分类精度并降低时间复杂度,从而很好地提高机器学习算法的性能。近些年来,演化算法由于具有很好的全局搜索能力而被广泛用于求解特征选择问题。但是,当数据集的维度增加到一定程度时,许多不相关或冗余的特征使诸多方法易陷入“维度灾难”和局部最优等问题。许多现有的演化算法不能有效地解决这类问题,而且大部分研究者都是从参数和结构优化等角度来改进演化算法的性能。为了从不同的角度提升演化算法的性能,更好地解决特征选择问题,特别是大规模的特征选择问题,本文在粒子群优化算法的基础上,主要做了以下研究工作:(1)有效的种群初始化方法可以改进演化算法的收敛性能以求解特征选择问题。但是,现有的研究中,对种群初始化的研究相对较少,而过滤式方法简单且效率较高,可以快速评估和选择有用的特征,尚没有被广泛应用于改进种群初始化。因此,针对此问题,提出了基于过滤式(Filter)和阈值的种群初始化改进的粒子群优化算法(Particle Swarm Optimization with Filter and Threshold Selection-based Population Initialization,FTSI-PSO),并将其用于求解特征选择问题。(2)针对FTSI-PSO算法普适性小、未能充分利用特征之间的交互性等问题,提出基于Filter和概率的种群初始化改进的粒子群优化算法。实验结果表明,该算法在解决特征选择问题时,具备较好的收敛速度和较高的分类性能。(3)针对大规模多目标特征选择问题的局部最优停滞问题,提出了多目标自适应粒子群优化算法。该算法将分类准确度和解大小作为两个目标。在PSO算法的基础上,采用自适应机制、快速非支配排序方法、拥挤度距离计算方法和精英策略构建该多目标特征选择算法。实验结果表明,在解决特征选择问题时,该算法的性能要优于其他的多目标算法。