分布式环境下的张量分解算法研究

来源 :云南大学 | 被引量 : 0次 | 上传用户：qq02040610

【摘要】

：

张量是矩阵在高维度空间的泛化,矩阵以二维数组的形式包含了行和列,而张量是多维数组。二维数组能够描述两对或者多对变量之间的二元关系,而多维数组能够描述三个,甚至更多变

【作者】

：

麦超

【出处】

：

云南大学

【发表日期】

：

2004年期

【关键词】

：

张量 CP分解 Spark 分布式算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

张量是矩阵在高维度空间的泛化,矩阵以二维数组的形式包含了行和列,而张量是多维数组。二维数组能够描述两对或者多对变量之间的二元关系,而多维数组能够描述三个,甚至更多变量之间的高阶关系。这种描述高阶关系的能力使得张量不仅仅在文本分析领域有所应用,在社交网络、时间序列分析等领域张量有着更广泛的应用。过去的几十年里,张量在的研究主要集中在物理、数值分析、信号处理和理论计算机科学等理论领域。由于在计算机发展的初期,计算机的处理能力十分有限,而涉及到张量的算法,时间复杂度通常都是指数级的,因此当时矩阵在计算机科学的工程领域被广泛使用。随着计算机的发展和大数据的兴起,张量继理论领域的发展之后,再次在工程领域受到了大量的关注。在海量数据的处理中,面对的常常都是高维度特征空间的数据,矩阵以二维的形式来描述数据的能力越来越难以处理高维度数据,张量正在逐渐成为处理高维度海量数据的主流手段。张量分解是将张量应用于高维度数据处理的主要工具,通过张量分解,隐含在数据中的特征能够被有效地提取出来,同时剔除不重要部分,实现去除噪声数据、降低数据维度和减少数据量的作用。而张量的CP分解是张量分解重要方式。本文首先阐述了张量和张量的CP分解,并分析了传统基于ALS的CP分解算法在计算和实现上的问题。然后针对传统CP分解算法处理大规模数据效率低下的问题,本文设计实现了基于Spark平台的CP分解的分布式算法,ParaTD(Parallel Tensor Decomposition)。对比传统的CP分解算法,本文的主要贡献有三个方面:(1)提出了基于Spark平台的CP分解的分布式算法,并使用Scala进行工程实现,利用Spark的RDD和分布式矩阵的特性,将内存作为计算过程中的数据的主要存储方式,减少了磁盘访问带来的开销。(2)设计并实现了拆分Khatri-Rao乘积的算法,将张量拆分为多个纤维进行计算,避免了计算过程中的临时数据激增,为大规模数据的CP分解打下基础。(3)设计并实现了并行计算外积,以及使用分布式缓存来加速计算矩阵乘积的方案。把用于计算外积的矩阵拆分为行向量,使用分布式的方式对彼此无依赖的外积进行并行的计算;同时利用Spark广播变量的特性,把较小的矩阵在集群上分发,并把大矩阵的乘法化整为零,进一步提高了计算的效率。通过实验表明,相比传统的CP分解算法,本文的分布式CP分解算法在大数据量的情况下,在计算效率和对资源的利用率都有较大的提升。

其他文献

对高科技公司的估值研究

本文研究的对象是美国特斯拉公司,其处在内外部环境变化较快的高科技创新行业,其市场估值与其规划战略、相关的估值影响因子与倍数联系密切。第一章主要通过对类似特斯拉的高

学位

估值特斯拉公司企业价值财务建模高科技与创新

双歧杆菌在新生鼠坏死性小肠结肠炎应用中剂量的研究

目的对双歧杆菌在新生儿坏死性小肠结肠炎的应用的剂量进行相关的研究,为临床上双歧杆菌在此病上的应用提供一定的依据。方法选取符合要求的新生大鼠40个,将它们分为五个组,

学位

坏死性小肠结肠炎双歧杆菌剂量新生鼠

碳纤维/铝层状复合结构的断裂性能及抗电偶腐蚀性能研究

碳纤维增强铝基复合材料具有高强度、高模量与轻量化的特点,因此被广泛应用于航天飞机、人造卫星、汽车、船舶等领域,但是在实际应用中,碳纤维与铝合金不管通过铆接还是粘接的方式连接,两种存在电位差的材料之间都会不可避免地产生接触,若遇到雨雪天气、潮湿气候或者海洋环境等,可能会产生电偶腐蚀。因此如何在提升碳纤维-铝复合材料力学性能的同时,提升材料的电偶腐蚀防护性能尤为重要。针对该问题,本研究在碳纤维/铝层状

学位

碳纤维/铝复合材料芳纶纤维电偶腐蚀ENF试验界面增强

OBF-Index：基于Ordinal Bloom Filter的分布式多维索引

随着数据量的爆炸式增长,为了应对海量数据的处理需求,Google提出了MapReduce框架。Hadoop作为其开源实现,因其稳定性、可扩展性等诸多优点逐渐受到越来越多人的青睐。在传统

学位

MapReduceOBF-Index布隆过滤器索引环境多维索引

达沙替尼联合多西他赛对人类三阴性乳腺癌小鼠模型疗效评估及相关机制初步研究

目的:研究达沙替尼及多西他赛体内抑制三阴性乳腺癌生长的作用及机制。探讨达沙替尼是否能够替代传统化疗,或与传统化疗结合来提高晚期三阴性乳腺癌治疗效果。方法:选用人乳

学位

三阴性乳腺癌达沙替尼乳腺癌干细胞多西他赛

C1q对幽门螺杆菌感染THP-1细胞分泌炎症相关因子的影响

[目的]1.明确C1q在H.pylori感染THP-1细胞时对LAIR-1表达的调控作用。2.研究C1q在H.pylori感染THP-1细胞时对炎症相关细胞因子IL-4、IL-8和IL-10分泌的影响。3.研究C1q在H.py

学位

幽门螺杆菌白细胞相关免疫球蛋白样受体-1C1qTHP-1细胞细胞因子信号通路

基于资源环境数据格网化表达的关联模式发现

传统空间关联模式发现以空间图形的原始形态作为发现对象,提前依据待发现数据及发现目标建立谓词表作为发现逻辑,并且事务化的过程需要跨图层联合搜索。这种方法会造成:1)所

学位

空间数据挖掘格网数据空间关联模式Apriori算法

云南出版集团图书版权走出去战略研究

云南出版集团是省属国有文化龙头企业,在中国经济进入新常态,出版业进入低增长的时期,不仅承担着创造社会财富的重要责任,更肩负着文化传承的使命。然而从现实分析,云南出版

学位

版权贸易走出去战略SWOT分析价值共创

蜕膜巨噬细胞表面Tim-3在孕期弓形虫感染致不良妊娠结局中的作用机制研究

目的:阐明蜕膜巨噬细胞表面Tim-3在孕期弓形虫感染致不良妊娠结局中的作用机制。方法:体外实验:取人早孕期流产蜕膜组织标本,分离蜕膜组织,制备单细胞悬液,磁珠分选纯化获得

学位

蜕膜巨噬细胞M1/M2Tim-3刚地弓形虫不良妊娠结局

基于STDP突触机制的DCN区域耳鸣模型构建

耳鸣主要表现为无相应的外界声源或电刺激,而主观上在耳内或颅内有声音感觉。作为一种常见疾病,耳鸣给患者带来了极大的危害。长期严重的耳鸣会使人心烦意乱、工作效率下降,

学位

fusiform神经元STDP机制耳鸣稳态可塑性听力损失

分布式环境下的张量分解算法研究

其他学术论文