论文部分内容阅读
在机器学习中,人们经常需要处理含有大量特征同时包含很多实例的高维数据集。对于这类数据集,存在冗余甚至干扰特征。因此,特征选择成为了机器学习中的一个研究热点,其可以选择出规模更小,表达效果更好的特征子集,既降低了机器学习算法的计算代价,又可以提高学习算法的准确率。此外,数据采集过程中的各种因素,诸如探测仪器的限制、样本破损、环境的干扰,使得采集的数据存在缺失,导致实际应用中不完整数据的大量存在。高维不完整数据成为了数据挖掘和机器学习中不可回避的问题。针对现有特征选择算法存在的问题和不足,本文从新的思维角度出发,深入研究了面向高维不完整数据的特征选择算法。首先调研了关于不完整数据处理方式和特征选择算法研究背景和发展现状,对现有的方法进行了总结,指出了存在的问题和不足。针对传统不完整数据的处理通常采用丢弃和填补的方式容易导致严重的数据偏离问题,提出一种直接在不完整数据上进行特征重要度的计算方法。该方法首先将数据矩阵根据完整度划分为3个部分,接着考虑每一个缺失值的可能性,然后采用基于概率分布和基于元组数量的合并方式,有效的完成了不完整特征重要度的计算。其次,针对现有特征选择算法在高维数据上效果不理想,提出了一种基于随机矩阵的高维数据特征选择方法。其通过将相关矩阵中符合随机矩阵预测的奇异值去除,从而得到改进后的相关矩阵和选择特征的数量,接着对改进后的相关矩阵进行奇异值分解,通过分解矩阵获得特征与类的相关性,根据特征与类的相关性和特征之间冗余性完成特征选择。此外,还提出一种特征选择优化方法,通过依次将每一个特征设为随机变量,比较其奇异值向量与原始奇异值向量的差异来进一步优化结果。最后,为了验证本文所提出方法对高维不完整数据特征选择中的有效性,本文通过在多个高维不完整数据集上进行分类实验,以分类准确率、特征选择数量和缺失率为评价指标验证了本文所提出的方法对高维不完整数据的特征选择问题上是有效的。