基于矩阵模型的跨平台大数据机器学习系统及其性能优化

来源 :南京大学 | 被引量 : 0次 | 上传用户:liuqin1225
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代,为了高效地挖掘出数据中隐含的知识和价值,大规模机器学习和数据分析系统成为当今热门的一个研究课题。一个优秀的大数据机器学习系统除了满足大规模数据的快速处理功能外,还应该提供良好的编程抽象能力,以提供易于使用的编程方法,满足机器学习与数据分析算法的高效设计实现,并且具备高效、可扩展的大数据处理能力,在有效解决大规模数据分析计算性能问题的同时,还能支持现有的以及未来出现的大数据处理平台的能力。矩阵运算在机器学习和数据分析算法中被广泛使用。除了传统的基于矩阵的单机R和Matlab平台外,目前已经出现了很多分布式矩阵计算库的研究,例如HAMA、ML-Matrix和Marlin。然而,矩阵库只能提供基本的矩阵操作,无法对基于矩阵模型的应用程序中的计算流程实现全局优化,并且也难以根据特定计算平台的特性对整个计算流程进行相应优化。此外,相同的矩阵操作在不同计算平台上的性能各有优劣,这是由于平台的特性、计算逻辑以及矩阵规模所决定的。因此,对于诸如数据科学家等上层用户而言,难以手工合理选择单个平台或多个平台的组合以获取应用程序的最佳执行性能。为了解决大数据机器学习系统的易用性和可编程性问题与计算性能问题,本文研究了基于矩阵模型的大数据分析编程模型与框架、计算流图优化技术、以及完整系统的设计,在此基础上,设计实现了一个基于矩阵编程模型的跨平台大规模机器学习系统“大章鱼”(Octopus)。本文主要的贡献点包括:(1)研究实现了基于大规模矩阵模型的统一机器学习与数据分析编程模型和框架,允许用户基于矩阵模型和R语言,快速设计实现大数据机器学习和数据分析算法,实现了良好的易用性和可编程性。(2)为了提高大规模数据机器学习与数据分析时的计算性能,针对矩阵应用程序的计算流图优化,研究实现了计算流图逻辑执行方案优化方法,提升了计算流图的执行性能。通过声明式矩阵构建矩阵计算流图,对计算流图形成的DAG进行了两种逻辑方案优化,实现了公共子表达式消除优化和矩阵连乘优化。(3)对逻辑执行优化后的矩阵计算流图,进一步研究提出了一套物理优化策略和方法,以进一步提升实际执行的性能。矩阵计算流图的执行可以在单平台上运行也可以在多平台上运行。当矩阵计算流图在单个平台上执行时,为了能够在目前被广泛使用的通用大数据处理平台Spark上提供更好的计算性能,研究实现了 Spark平台的Cache和Shuffle优化。当矩阵计算流图在多个平台下执行时,基于不同矩阵操作在不同平台下的执行性能各有优劣这一事实,研究实现了矩阵操作执行时的多平台的自动选择和调度优化。(4)在上述关键技术方法研究基础上,基于R语言,设计实现了跨平台大数据机器学习系统Octopus,底层支持单节点R计算平台以及Spark、Hadoop和MPI等多种分布式计算平台,提供声明式和命令式两种矩阵接口,实现了良好的易用性和可编程性。用户无需具有分布式程序设计知识,便能够实现机器学习和数据分析算法。此外,上层应用程序只需编写一次,几乎无需修改便能根据实际需要选择在任意的计算平台上执行,实现了“Write Once,Run Anywhere”的跨平台特性。(5)实验结果表明,矩阵计算流图的逻辑优化对高斯非负矩阵分解算法在R、Spark、MPI平台下分别达到了 1.91,1.31,1.23的加速比。Spark平台的物理执行优化对高斯非负矩阵分解算法能够达到1.58-5.06的加速比。矩阵操作自动调度框架中时间模型的误差率在10%以内,对示例应用在Spark和MPI上的跨平台调度执行较之于单Spark和MPI平台执行分别获得91%和62%的性能提升。
其他文献
浸润性是固体表面的一个重要的性能,控制固体表面的浸润性对基础理论的研究和工业生产都具有重要的意义,近年来已引起了各个领域的极大兴趣。浸润性主要由固体表面的化学组成
次生火灾作为发生频率最高的地震次生灾害,其一旦发生则会造成结构力学性能的劣化,加剧结构本身的损伤程度甚至造成结构倒塌。然而,关于建筑结构在震后火灾作用下的性能研究只有少数人涉及,所以通过开展这方面的研究,为结构抗震和抗火提供设计参考依据,这对建筑结构在地震引发次生火灾后的应急具有双重的理论和现实意义。本文基于对钢筋混凝土板柱结构中柱节点抗震试验的损伤形式分析总结和受不平衡弯矩作用的板柱节点破坏机构
在传统的机器学习中,往往假设数据的分布是固定不变的。但是在许多现实应用场景中,比如推荐系统中,数据的分布往往会随着时间的变化而变化,即存在着“时序演进”的现象。使用
高功率激光脉冲聚焦作用于固体靶产生的激光等离子体中存在大量的多个电荷态的高电荷态离子。这些高电荷态离子具有多个开的次壳层,涉及大量的近兼并能级,在极紫外波段存在强
金属锂具有极高的理论比容量(3860 m Ah g-1)、最小的金属密度(0.534g cm-3)和最负的电极电位(-3.04 V vs.标准氢电位),是锂电池负极材料最理想的选择。然而在循环过程中产生的锂枝晶、界面反应、体积变化大和循环寿命低等问题,使金属锂负极的电化学性能和安全性受到严重的影响,制约了金属锂电池的发展和应用。基于上述问题,本文从金属锂负极本身出发对其进行改性研究,制备了不同结构
广西北热带季节性雨林是在我国热带北缘分布的典型森林植被类型之一,受不同地质背景、生境类型和季风气候的影响,形成了独特而巨大的生物多样性基因宝库。在广西北热带季节性
病毒感染与复制中产生的病原相关分子模式(PAMPs),如RNA、DNA、RNADNA杂合体可以被模式识别受体(PRRs)识别,随后模式识别受体发生构象变化,招募接头蛋白或催化第二信使招募并
宽带数据业务的爆发式增长带动了光传送网络(OTN)的大规模扩展,同时使OTN面临体系扩展与路由协同难,网络利用率低等多方面的问题。软件定义网络(SDN)技术开放接口,转控分离,
自然界开采的原油通常是由油质、气体及各种杂质组成的多相混合物。如何对原油进行高效传输是原油开采及加工过程中一项重要技术。由于缺乏多相流体运动的理论基础和有效的设计方法,导致传统的传输泵在油气混输过程中效率低、寿命短。近年来,以油气混输为主要特征的多相混输技术引起人们广泛关注。本文以一种油气混输泵为研究对象,对混输泵计算域三维建模,利用Fluent流场分析软件进行数值模拟,选用描述粘性不可压缩流体动
随着同位素质谱仪器技术的进步,尤其是多接收电感耦合等离子体质谱仪器技术的快速发展,非传统同位素已成为地球科学研究热点之一。钼同位素是一种非传统同位素,它对古海洋演化、成矿物质来源、现代水圈以及探究元素循环等领域有较好的示踪作用。但钼在多数地质样品中的含量极低,这给准确测定地质样品的钼同位素带来一定的困难,分离富集是准确测定地质样品中钼同位素至关重要的环节。离子交换法是地质样品中同位素分离富集最常用