鲁棒非负矩阵分解算法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:pcxuexi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,大数据时代悄无声息地走到了我们身旁,每天用户各种各样的行为产生了数以亿计的数据,这其中就包括了社交信息,购物信息以及浏览信息等。大量数据中包含着很多我们平常并不可见的用户行为规律,这些规律往往能带来更好的经济效益或者更高的工作效率等。因此,如何从海量的数据中找到对于自己来说有价值的信息成为了大数据时代的热点,数据挖掘正是在这种迫切的需求下应运而生。矩阵分解是数据挖掘中的一个重要研究领域,它被广泛地应用于图像和文本的挖掘中。但在实际应用中矩阵分解往往要面临图像像素值不能为负以及文档统计中负值没有意义等问题,如果不能对负值进行一个很好的处理,就会使算法的可解释性大大降低。为了增强可解释性,非负矩阵分解慢慢地进入了人们的视线。非负矩阵分解为分解后的基矩阵和系数矩阵增加了非负约束,这一约束很好地契合了一些实际应用场景中负值没有意义的特点,增强了算法的可解释性。除此之外,其还具有求解过程收敛速度快以及占用存储空间小的特点,这些优势使其非常适合作为大数据的处理方法。但是,经典的非负矩阵分解算法对于噪声数据的控制并不是很好,它对于误差的平方计算放大了噪声数据对算法结果的影响,限制了其在实际场景中的应用。在后续改进中,通过不再对数据点之间的冗余进行平方计算,只是进行简单地累加,在一定程度上降低了噪声数据的影响,但其不能很好地适应数据集中噪声数据比例的变化,致使其在一些数据集中不能得到理想的结果。本文针对此问题提出了两个非负矩阵分解算法,分别是截断式鲁棒非负矩阵分解算法以及双重截断式鲁棒非负矩阵分解算法。截断式鲁棒非负矩阵分解算法在基于L2,1范数的鲁棒非负矩阵分解算法的基础上引入了数据点个数截断参数,用计算出的每个数据点的冗余与之进行比较,比之大者,截断为零,反之继续进行计算。这样就将误差大的噪声数据点剔除了出去,减小了对算法结果的影响,同时可以通过截断参数对数据集中噪声数据比例变化进行适应,增强了算法的鲁棒性。双重截断式鲁棒非负矩阵分解算法在截断式鲁棒非负矩阵分解算法的基础上更进一步,其更好地考虑了数据的本质结构,引入Ridge Leverage Score对识别噪声数据的计算标准进行了改进,同时增加了对噪声属性的处理,引入了用于控制噪声属性个数的截断参数。这些改进提高了结果的准确性,增强了算法的鲁棒性,使其能适应复杂的实际应用场景,得以广泛应用。
其他文献
近年来,由于基于视觉的手势识别技术能够使人以更自然的方法与机器进行交互,越来越受到人们的重视。基于计算机视觉的手势输入技术的特点是对用户的限制少,但是需要处理的数据量
车载自组网(VANET, Vehicular Ad-hoc networks)技术自2003年ITU-T的汽车通信标准化会议上由各国专家提出以来,受到广泛重视并得到迅猛发展。隐私性是车载自组网的基本安全需
倒排索引是目前应用最为广泛的全文索引技术,是现代搜索引擎的核心技术。现在互联网上文本数据呈现爆炸式增长,为这些文本数据构造的倒排索引也需要越来越多的存储空间,压缩
随着软件开发的发展,系统结构的日益庞大,漏洞修复和新功能的扩充将贯穿于整个软件生命周期,软件升级作为软件维护的重要支撑起到了不可或缺的作用。现在越来越多的软件具备了自
近年来,随着计算机相关技术及图形图像技术的广泛应用,医学图像的质量和显示方式得到了极大的改善,从而借助于图像处理与分析技术使得诊疗水平大大提高。医学图像的三维可视化是
负载均衡技术是并行文件系统中常见且不可或缺的重要优化手段。在并行文件系统中实现副本技术,利用负载分析方法和调度算法,可以有效地将系统中各种负载均衡地分配到各存储节点
随着互联网技术的发展和网络规模的扩大,人们对远程登录的需求也变得十分迫切,很多企业、组织对网络设备以及服务器的管理都需要使用远程登录服务。因此远程登录技术成为了非
随着科学技术的快速发展,越来越多的企业或单位开始利用虚拟机搭建数据中心来应对日益增长的计算需求。然而,随着数据中心虚拟机数目的不断增加,单个虚拟机发生故障从而导致整个
视觉物体表示(visual object representation)是联系底层图像信息和高层语义概念之间的纽带,在物体识别、图像检索等计算机视觉任务中起着关键性的作用。基于鲁棒性局部图像特
在现在的经济社会中,大量的商品和服务的支付都需要使用银行交易业务。银行系统在金融机构中的作用越来越重要,这直接关系到金融机构的盈利和为其客户提供便利服务。世界银行