论文部分内容阅读
随着信息时代大数据的爆发,当今各行各业产生大量的数据迫切需要被处理,它们不仅规模庞大、维度高并且数据内在结构复杂。高维数据一般具有更复杂的非线性结构,分析和处理难度大。然而具有多个流形结构的高维数据可以映射到各个低维的子空间中,即对数据同时进行降维和聚类,降维和聚类之后的数据以便于之后分析和处理。流形学习是数据降维的常用手段之一,它假设高维数据中嵌入了一个低维的数据流形,即数据本质是低维的,然后通过数据之间的距离关系找出这个低维数据流形,从而达到降维的目的。虽然流形学习能够找出数据本质的几何结构,但是只适用于单个数据流形情况。更普遍的情况下,高维数据的结构为多个不同维度的数据子流形交错在一起的情况,不同的流形来自于不同的低维子空间。子空间聚类旨在找出来自不同子空间中的数据流形从而达到对多个数据流形聚类的目的,该方法广泛应用于图像处理(图像压缩、图像表示),计算机视觉问题(图像分割、运动分割等)、系统识别、机器学习等领域。谱聚类是子空间聚类的基本方法之一,稀疏子空间和低秩子空间聚类都是基于谱聚类的方法。稀疏子空间聚类是在数据空间找出一个数据的稀疏表达,稀疏意味着由该数据同一个子空间参与表出的数据的系数尽可能非零,而由其他子空间参与表出数据的系数尽可能为零。低秩子空间聚类思想和前者相似,区别是对参与线性表出数据的系数矩阵加入低秩约束,因为矩阵中每个向量稀疏不能推导出该矩阵低秩。稀疏子空间和低秩子空间聚类都只适用于线性子空间中的数据流形,为了将线性子空间推广到非线性子空间本文提出一种聚类方法称作稀疏切子空间聚类(STSC)。该方法构造一个加权?1范数的凸优化问题,加权系数包含了非线性数据流形上局部和全局的几何结构信息,它的优点在于巧妙地利用线性表达求出非线性数据所在的各个子空间。针对所提出的凸优化问题中的加权?1范数,本文提出一种加权梯度算子,用于求得在约束条件下该范数近似的闭式解并采用增广拉格朗日乘子(ALM)求得整个凸优化问题的稀疏表达。最后本文将STSC算法应用于简单数据集、运动分割和人脸聚类三种具有代表性的聚类问题,同时对几种常见的子空间聚类方法在同样的数据集中做了仿真实验,并分析和对比它们的优劣之处。