论文部分内容阅读
进入二十一世纪以来,随着计算机技术的发展,商业应用等领域每天都产生大量的数据,除了数量巨大之外,数据的维度也爆炸式增长。高维数据在实际应用中越来越普遍,其重要性也越来越高,因此,我们对高维数据进行分析与挖掘有非常重要的实际意义。不管工业界还是学术界都兴起了对高维数据的分析与挖掘的热潮。传统机器学习方法应对高维数据时面临巨大困难,很多能将低维数据优异分类的算法在面对高维数据时很难达到预期。因此,高维数据对传统的机器学习方法是巨大挑战也是新的机遇。 如何将低维空间展现高维数据,并且挖掘高维数据内部结构是一项重要环节。降维作为克服“维数灾难”的重要手段,本文对特征降维展开了深入探讨。降维主要有两种手段,特征选择和特征提取。特征选择与特征提取的本质区别在于,特征选择的结果是原有特征空间的真子集,而特征提取会产生诸如原有特征线性组合的新特征。在实际应用中,特征选择相对更容易实现,应用的也更多一些。 对于高维数据研究的主要热点集中在有监督分类上。高维数据分类有较为重要的应用价值。例如,本文的脑电信号分类以及高光谱遥感图像分类等等。对于该问题来说,目前还有不少的困难,还有很多问题亟需我们去解决。因此,本文也对高维数据的分类展开了论述,针对不同数据的特点,有针对性的选择分类器。