论文部分内容阅读
随着互联网的高速发展,大数据(Big data)吸引了各领域越来越多的关注。实际应用中的复杂高维数据,不仅对于计算复杂度和空间复杂度产生很高的要求,还会产生维数灾难(the curse of dimensionality),对数据分析和应用带来严重的问题。在尽可能保持原始数据信息的基础上降低数据维度,是解决上述问题的重要手段之一。流形学习作为非线性数据降维方法,凭借其能够学习原始数据在高维空间中的非线性结构、发现其本质维度的优势,近年来取得很多关注,出现了大量研究成果。然而当前的流形学习方法还存在一些普遍问题,如面对海量数据的计算效率问题、无法处理新数据导致的监督学习问题等。其中经典的等距映射流形学习算法Isomap具有计算效率低、邻域难以确定、无法处理新数据等内在缺点,限制了其进一步的实际应用。本文从Isomap算法存在的问题出发,研究Isomap及其改进算法产生的背景,针对它们存在的缺点提出了两种有效的流形学习算法,并和现有的相关研究成果进行了计算复杂度、空间复杂度和实验结果的比较。本文的主要贡献概括如下:1.梳理了Isomap算法的发展经历以及改进算法,介绍了相关算法的产生以及主要思想。2.提出了基于自组织神经网络的SoinnLandmark-Isomap(下称SL-Isomap)算法,具有同时确定基准点数量和位置的优势,解决了现有基准点Isomap算法中难以确定合适数量基准点的问题,同时实现了数据压缩与非线性降维。3.提出了基于自组织神经网络的拓扑学习与在线映射算法(Topology Learning and Out-of-sample Embedding, TLOE),同时解决了传统Isomap及其改进算法中计算效率低、邻域难以确定、无法处理新数据的三个内在缺点。更重要的是,由于TLOE能够对新数据进行在线降维映射,而不用重新训练整个数据集,使得TLOE的实际应用扩展到了监督学习。因此解决了流形学习中的计算效率和监督学习两大普遍问题。