论文部分内容阅读
由于科学技术的进步和数据采集技术的发展,人类已经进入到大数据时代。海量的数据带给我们丰富的信息,同时也夹杂着很多的噪声,如何从受污染的海量数据中进行知识的挖掘成为人们越来越关心的问题。主成分分析模型是早期比较流行且成熟的数据分析方法之一,但是缺乏鲁棒性,对噪声很敏感使得该模型和算法已经无法适应当前的需求。John Wright等人提出的RPCA模型(Robust Principle Component Analysis),通过求解核范数和L1-范数极小化,有效的克服了主成分分析的缺点。本文主要从鲁棒主成分分析模型出发,提出了基于列稀疏的新模型并给出了相应的算法。另外还给出了两个快速求解模型。具体工作主要分为以下三个方面:1.将L21-范数引入到鲁棒主成分分析模型中,借此能够更好的描述数据结构。鲁棒主成分分析模型要求噪声矩阵是稀疏的,并且用L1-范数对稀疏性进行约束。但是该范数产生的稀疏性没有考虑数据本身的结构信息。而基于损失函数的L21-范数对噪声点是鲁棒的,并且通过L21-范数正则化可以产生针对所有数据的联合稀疏性。2.在前一工作的基础上,提出了针对大规模问题的快速求解模型。鲁棒主成分分析模型中用核范数产生低秩结构。迭代法求解核范数最小化需要涉及对矩阵进行奇异值分解(Singular Value Decomposition)。随着数据矩阵规模的扩大,SVD的计算复杂度会也会随着上升。对于大规模问题这一部分的计算是十分耗时的。本文采用两种方法:一是借鉴非凸矩阵分解方法,用两个矩阵乘积来实现低秩约束;二是采用核范数的变分定义来代替核范数。3.将所得新模型及算法应用到运动物体检测和人脸去除光照应用中。改进后的模型扩大了RPCA模型的适用范围。将各个模型应用到实际问题中,对实验结果进行比较可以发现新提出的模型和原模型一样可以得到比较理想的解而且求解速度比原模型有很大提升。