论文部分内容阅读
随着多传感器技术和计算机科学的快速发展,现实世界中产生的数据属性繁多,多属性的数据集有利于全面分析数据各属性之间的联系。因此,使用高阶张量融合多属性数据便于挖掘多属性数据中的关联信息。然而,处理高阶张量时所需的计算机内存、计算次数等资源都会随阶数呈指数增长,导致某些算法无法在多项式时间内得出结果,这个问题称为维数灾难。张量列分解算法是一种新颖的张量分解算法,其将高阶张量分解为多个三阶张量,从而把指数级问题转化为立方级问题,可以很好的应对维数灾难的困境。但是对于大规模的张量数据,张量列分解算法迭代执行,分解效率低下,执行时间长,而且由于计算机的内存限制,甚至无法容纳一块完整的张量数据。因此,对于目前现实世界中产生的高阶多属性融合数据,实现分布式的张量列分解算法将是本文的研究重点。本文以数据分块为基本点,提出了两种分布式张量列分解算法,对张量列分解算法实现并行化处理,而且可以处理计算机内存无法容纳的大规模数据的张量列分解。最后给出了算法在信号处理中的应用实例。本文的主要研究可归纳如下:1.提出基于数据并行的分布式张量列分解算法。张量列分解算法整体上是迭代的算法,基于数据并行的分布式张量列分解算法在迭代的每一步中对张量的展开矩阵进行切块,并行地对分块矩阵做奇异值分解,然后使用归并的方式对分块矩阵结果合并得到最终结果。算法相比于现有的张量列分解算法可以节省大量时间,并保持较高的数值精度。但是基于数据并行的分布式张量列分解算法的分布式并行方案不够彻底,依然存在着较大的改进空间。2.提出基于算法并行的分布式增量式张量列分解算法。研究张量列分解算法迭代过程中展开矩阵的规律,推导出每一步展开矩阵的通项变换公式,从而将算法的执行从迭代改为并行,对每一步的展开矩阵同时分解。同时,基于张量切块的思想,由子张量处理结果合并为每一步展开矩阵的奇异值分解结果。算法相比于基于数据并行的分布式张量列分解算法在计算时效性方面有着明显提高。算法还实现了增量式的张量列分解算法,在数据增量时避免对历史数据的重复计算。3.实现了张量列分解在信号处理中的两个应用实例,分别用于物体识别和轴承故障检测,验证了张量列分解算法在特征提取方面的可行性。