论文部分内容阅读
特征选择是机器学习领域研究的热点之一。本文通过介绍特征选择的相关背景及研究意义,分析一些特征选择方法的优缺点,利用过滤式和封装式这两类特征选择算法的互补性,提出一种基于Fisher Score及遗传算法的混合式特征选择方法。该方法先对所有特征的Fisher Score作一个线性变换,再利用变换后的Fisher Score生成遗传算法的初始种群,接着借鉴精英保留策略,用遗传算法的后续运算选出特征。以Sonar,WDBC,Arrhythmia,Hepatitis这四个数据集作为实验数据,用该方法分别选出它们的特征子集,再依据所选特征子集对原数据集降维,用1-最近邻分类器对降维后的样本分类,通过10重交叉验证法分别获得72.36%,95.64%,72.04%和87.83%的分类准确率,并且所需的迭代次数较少,特征选择的综合效果基本优于Fisher Score法(FS)、遗传算法(GA)和Fisher Score+遗传算法(FSGA)这3种对比方法,同时该方法能很好地剔除冗余特征,选出具有较高鉴别力的特征,是一种有效的特征选择方法。