论文部分内容阅读
随着互联网的发展,大数据时代悄无声息地走到了我们身旁,每天用户各种各样的行为产生了数以亿计的数据,这其中就包括了社交信息,购物信息以及浏览信息等。大量数据中包含着很多我们平常并不可见的用户行为规律,这些规律往往能带来更好的经济效益或者更高的工作效率等。因此,如何从海量的数据中找到对于自己来说有价值的信息成为了大数据时代的热点,数据挖掘正是在这种迫切的需求下应运而生。矩阵分解是数据挖掘中的一个重要研究领域,它被广泛地应用于图像和文本的挖掘中。但在实际应用中矩阵分解往往要面临图像像素值不能为负以及文档统计中负值没有意义等问题,如果不能对负值进行一个很好的处理,就会使算法的可解释性大大降低。为了增强可解释性,非负矩阵分解慢慢地进入了人们的视线。非负矩阵分解为分解后的基矩阵和系数矩阵增加了非负约束,这一约束很好地契合了一些实际应用场景中负值没有意义的特点,增强了算法的可解释性。除此之外,其还具有求解过程收敛速度快以及占用存储空间小的特点,这些优势使其非常适合作为大数据的处理方法。但是,经典的非负矩阵分解算法对于噪声数据的控制并不是很好,它对于误差的平方计算放大了噪声数据对算法结果的影响,限制了其在实际场景中的应用。在后续改进中,通过不再对数据点之间的冗余进行平方计算,只是进行简单地累加,在一定程度上降低了噪声数据的影响,但其不能很好地适应数据集中噪声数据比例的变化,致使其在一些数据集中不能得到理想的结果。本文针对此问题提出了两个非负矩阵分解算法,分别是截断式鲁棒非负矩阵分解算法以及双重截断式鲁棒非负矩阵分解算法。截断式鲁棒非负矩阵分解算法在基于L2,1范数的鲁棒非负矩阵分解算法的基础上引入了数据点个数截断参数,用计算出的每个数据点的冗余与之进行比较,比之大者,截断为零,反之继续进行计算。这样就将误差大的噪声数据点剔除了出去,减小了对算法结果的影响,同时可以通过截断参数对数据集中噪声数据比例变化进行适应,增强了算法的鲁棒性。双重截断式鲁棒非负矩阵分解算法在截断式鲁棒非负矩阵分解算法的基础上更进一步,其更好地考虑了数据的本质结构,引入Ridge Leverage Score对识别噪声数据的计算标准进行了改进,同时增加了对噪声属性的处理,引入了用于控制噪声属性个数的截断参数。这些改进提高了结果的准确性,增强了算法的鲁棒性,使其能适应复杂的实际应用场景,得以广泛应用。