论文部分内容阅读
海量音频数据检索技术的迅速发展,对已有的特征选择算法提出了严峻的挑战。迫切需要适应音乐数据集的准确性和运行效率等综合性能较好的特征选择算法以及机器学习方法。本文在高维音乐数据集的特征选择上开展了研究。主要工作包括以下方面:1.对比了各种经典特征选择算法的优缺点,对Wrapper和Filter两大类特征选择方法进行了实验分析。2.针对Wrapper算法无法给出特征权重的缺点,我们设计了CCRS算法,使用连续特征分类准确率来获得特征权重,对特征的贡献率给出了定量的描述,为特征分析和分类模型建立提供了重要的信息。3.为了改进ReliefF方法不能去除冗余特征的缺点,我们使用ReliefF+相关分析的方法和ReliefF+PCA/LDA的方法来进行改进实验。通过分析,我们提出了ReliefPCA方法,使用PCA的特征空间变换来进行去冗余的操作,同时保留了特征的可理解性。4.基于对Filter和Wrapper方法各自的优缺点,提出了Filter+Wrapper耦合的组合式特征选择算法ReliefGA。算法采用ReliefF指导遗传算法种群初始化,目的是提高遗传算法搜索近似最优解的速度,以便在较短时间内寻找到近似最优解。实验结果表明,从分类准确率,特征子集大小以及时间复杂度等多角度考察,该算法具有良好的综合性能。本文充分考虑了音乐数据集高相关性、高冗余度的特点,对特征选择算法进行了深入的研究,有针对性的做了很多有益的尝试,在保证特征可理解性,提高准确率等方面,取得了良好的效果。