论文部分内容阅读
在数据分析与处理领域中,一个最基本的任务是找到一个好的数据表示。好的数据表示可以有效揭示数据的潜在信息,例如主要成分、隐含概念或者显著特征等,并为后续的进一步数据分析处理提供便利。非负矩阵分解作为一种基本的数据特征提取与降维方法,其目标旨在将原非负数据矩阵分解为两个非负因子矩阵的乘积,在提取数据有效特征的同时实现特征维数的约减。非负矩阵分解由于其可以发掘一种基于部分的数据表示,进而增强了数据从“部分”到“整体”的解释性。由于其巨大的理论研究和实际应用价值,非负矩阵分解已经得到了广泛研究并取得了长足的发展,但是仍然存在以下问题:1)对原数据低秩特征空间的探索不足;2)没有提出能够有效发掘和利用数据隐含子空间结构信息的策略和统一框架;3)在有监督算法中对判别结构信息的约束机制存在不合理。针对以上问题,本论文主要的研究内容总结如下: (1)提出基于低秩恢复的图正则非负矩阵分解,目前大多数工作都致力于直接对高维图像进行非负矩阵分解来获取其有效的低维表示。为了得到数据的有效低秩表示,提出了非负低秩矩阵分解,该方法通过恢复原数据的低秩部分,并对其进行非负矩阵分解从而提取数据的非负低秩表示。由于数据的本质特征存在于低秩部分,而稀疏部分往往对应于数据的高频噪声,因此这种特征提取框架可以获得有效的低维数据表示。为了利用数据的流形结构信息,提出图正则非负低秩矩阵分解,进一步改善了所提取特征的表达能力。 (2)提出基于更新图正则的非负矩阵分解,该方法通过构建流形正则最小二乘回归模型来充分挖掘数据的子空间结构信息,并提出基于该模型的更新图来鲁棒并且有效地编码所获得的子空间结构信息。进一步通过约束非负矩阵分解的低维空间保持原空间的子空间结构拓扑关系,从而得到富含子空间结构信息的有效低维特征表达。另外,针对流形正则最小二乘回归的闭式解求解过程存在计算复杂度过高的问题,本论文提出了替代的迭代优化方案来有效求解该问题。 (3)提出基于非负子空间聚类的凸非负矩阵分解,该方法通过构建一个可以协同优化子空间聚类和凸非负矩阵分解的统一框架,从另一个角度探索了利用子空间结构信息改善模型所提取特征表达能力的可能。具体利用子空间聚类来有效获取数据的子空间结构信息,该信息经过图正则项在模型协同优化的过程中传递给凸非负矩阵分解,从而使后者可以利用该信息强化所提取特征的表达能力。对子空间表达系数的非负约束便利了算法的求解,而局部子空间约束则使算法对交叉子空间之间存在的噪声干扰更具鲁棒性。针对所提出模型的两种具体实现方案,分别给出了有效的优化求解方法。 (4)提出基于判别正交子空间约束的非负矩阵分解,该方法通过将判别约束作用于原数据关于基矩阵的子空间投影,并对基矩阵施加正交约束,从而使模型得到的基矩阵对于样本有更好的判别投影能力,在投影空间获得特征更有区分性。对基矩阵的正交约束同时也改善了所提取特征的稀疏性。对于模型框架的两种具体实现方式,可以用倍乘更新规则进行有效的优化求解。