论文部分内容阅读
当今是信息技术高速发展的时代,数据规模呈指数方式增长,大数据的价值越来越受到广泛的关注。当前,大数据领域中存在的两个重点问题分别是如何将大数据表示成统一的模型和对大数据进行高效的降维。目前,非结构化数据、半结构化数据以及结构化数据都有其单独的表示模型,并没有统一的模型能够对三种数据进行统一的表示。此外,在对大数据进行运算时,冗余数据、不一致数据以及噪声数据大量存在,使得目前处理大数据的算法难以实现高效的运行,因此降低了计算结果的准确性。如何将内部数据结构复杂的大数据表示成统一的简洁高效的数学模型,如何将原始数据集通过降维算法得到高质量的核心数据集,对大数据的研究具有重大的意义。随着大数据的发展,张量在大数据中的应用得到了广泛的关注。大数据具有数据量大、响应变化快、数据类型多样和价值密度低的特征,本文通过对大数据的特征进行分析,研究基于张量的大数据融合模型、大数据降维方法。论文的主要研究内容如下:首先,提出基于半张量积的大数据融合模型。结构化数据、半结构化数据以及非结构化数据都有单独的数据表示模型,传统的数据模型无法将这些数据统一融合到一个模型中。根据以上三种数据的不同结构类型以及这三种数据的结构特点,本文提出基于半张量积的大数据统一融合模型,使得结构化数据、半结构化数据、非结构化数据融合到同一个模型中。针对这三种数据在融合过程中出现的矩阵前阵列与后阵行不同的情况,利用半张量积对其进行融合。该模型不但能够将多源异构数据融合成统一的张量模型,还能保持原数据的基本内部特征不发生改变。其次,提出基于张量分割的降维方法。在处理数据的过程中,数据量过大、中间结果过于复杂直接导致大数据降维效率的低下。针对这一问题,首先将多源异构数据表示成的大数据融合模型进行分割,将一个比较大的张量模型分割成多个小的张量模型,然后对每一个小的张量模型进行增量式降维,即先将每一个分割后的张量展开,然后将展开矩阵投影到原矩阵的向量基空间中,最终得到能够替代原始张量的近似张量。最后,提出一种改进的非负矩阵分解的数据约减算法。非负矩阵分解能够使得分解后的元素都是非负值,并且能够同时实现对数据维数的约减,能够对近似张量进行进一步约减。首先将近似张量展开,对展开后的每一个矩阵进行非负矩阵分解,然后将分解后的矩阵进行合并,得到冗余度更小,数据质量更高的近似张量。在对张量模型进行非负矩阵分解时,不但能够将该模型的数据维度进行约减,还使得样本集与原始数据集能够保证数据分布的一致性。