论文部分内容阅读
随着信息技术的快速发展和广泛应用,在很多领域产生了大量的高维数据,直接分析和使用这些高维数据是非常困难的事情,数据降维能够在很大程度上解决这一类困难。局部线性嵌入(LLE)是一种非线性的降维算法,自2000年提出以来,已经成为一个研究热点。LLE能够发现高维数据中隐藏着的低维结构,并且具有较低的计算复杂度,然而,LLE要求数据点在局部具有线性关系,这在现实世界中是难以满足的,现实世界中的数据常常带有噪声,或者是稀疏的,此时局部线性关系很容易被破坏,因而导致LLE的效果不够理想。本文在LLE的基础上,提出局部非线性嵌入(LNE)算法。LNE是LLE的推广和完善,不仅具备LLE复杂度低等优点,而且扩展了LLE的应用范围,其主要思想是,如果数据的局部不满足线性关系,就保持某种非线性关系,这种非线性关系通过对每个点的近邻点施加映射来实现。我们也可以从另一方面来理解LNE,给每个点的近邻点施加映射后,这些点变成了一个新的点,而在新的点之间,局部的线性关系正好满足。与LLE的各种改进算法相比,LNE有两个明显的优势:(1)没有引入多余的参数,实现起来更加的方便;(2)应用范围更广泛,能在噪声数据,稀疏数据以及其他一些结构复杂的数据上使用且结果优异。LNE算法的一个巨大困难在于如何选择合适的映射。在本文中,基于反复实验,我们给出了一类可用的映射,并总结出了映射所应该满足的必要条件。同时,我们对LNE做了相关的理论分析,在一定程度上解释了LNE适用于噪声数据集的原因。最后,使用实验在多个数据集,包括S形曲面,Swiss roll曲面,Swiss roll曲面的变体以及MNIST手写体数字上验证了提出算法的有效性,这为实际的高维大数据降维提供了一种新的思路。