基于Kubernetes的Tensorflow分布式模型训练平台的设计与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:yangshaoj2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,人工智能已成为当今社会的热门话题,引领着社会的变革和技术的发展。事实上,人工智能已悄悄地渗入到我们生活的点点滴滴,在各个业务领域的应用已初见成效。而这些应用得益于在海量数据分析的基础上建立的经验模型,并且每一款人工智能产品都是通过对训练成熟的模型封装而衍生出来的。因此,模型即是人工智能的核心所在,欲想更快、更有效地从人工智能中获取高价值的内容和衍生产品,我们必须从其核心和根本入手,来研究如何高效、快速地训练模型。本论文将从算法工程师的角度出发,考虑模型训练的周期,解决训练过程中的一些痛点,打造一个易用、可用的模型训练平台。模型训练平台可以为算法工程师提供一套涵盖数据集管理、模型管理、脚本管理、运行环境等在内的在线服务。支持目前最受欢迎的Tensorflow算法引擎的分布式任务计算,减少模型训练的周期,极大提高模型开发效率。本文的主要工作是设计实现一个基于Kubernetes的Tensorflow分布式模型训练平台,为用户提供模型训练API服务以及Tensorflow框架的任务执行引擎服务。每一个服务对应一个独立的服务平台,所有的平台通过微服务架构进行组织。其中,模型训练平台API服务的主要功能有:数据集管理、模型管理、个人工作空间、组件管理、工作流管理;Tensorflow任务执行引擎服务的主要功能有:运行任务、停止任务、查看当前正在运行的任务列表,以上所有功能点的设计和实现都依据软件工程的开发流程实现。模型训练API服务基于B/S架构,使用Java语言和Spring Boot框架技术完成系统开发,选用MYSQL数据库。任务执行引擎则使用Python语言和Django框架完成开发,选用Redis存储数据。该平台经过测试,均已达到了预期目标,可以为算法工程师提供Tensorflow分布式模型训练服务。
其他文献
建立孩子成长的档案,需要多方的通力合作。苏州这所学校打动联合国相关专家之处,就在于他们在通力合作上做得到位。$$苏州一所小学的孩子成长档案,打动联合国“发展中的世界记忆
报纸
<正>"转型"不是"转行",要纠正一个误区,以为"转型"就是扩大经营副业,越多越好。要知道干自己完全不熟悉的行当,风险相对要大得多。拉长产业链型。如某公司收购了甲级设计院后
柘城县是传统农业大县,农产品资源十分丰富。近年来,柘城县委、县政府十分重视农产品加工业的发展,把发展农产品加工业作为推动农业产业化和助农增收的重要抓手,农业产业化建
科研成果转化进展滞缓是当前高职院校科研工作存在的主要问题。为避免科研成果束之高阁造成科研经费投入的巨大浪费,高职院校必须加强科研成果教学转化的策略研究,及时将科研成
目的探究miRNA-107在急性髓系白血病中的表达及意义。方法采用荧光实时定量PCR(qRT-PCR)法检测100例在本院初诊为原发急性髓系白血病患者(观察组)及同期行骨髓穿刺检查的非血
文学的城市书写,是城市文化建设中保持一座城市文脉不断、浴火重生、不断涅槃的永恒动力,文学书写也是一座城市文化符号穿越时空的强劲推力,文学书写还是一座城市造就名城文
目的探讨淋巴瘤患者中血清促红细胞生成素(EPO)水平及铁蛋白水平的变化及其临床意义。方法 23例确诊淋巴瘤的患者及23例健康体检者,抽取其血液样本,测定血红蛋白、促红细胞生成
自党的十一届三中全会召开以来,园林工作和全国各行各业一样出现了前所未有的大好形势。在城市建设中从清洁、优美、生态健全各个角度出发,对城市园林绿地做了较为科学的规
脑科学作为二十一世纪最重要的科学前沿领域之一,亟需无损脑电检测技术的支持。然而传统的脑电测量,需要在电极和头皮之间注射导电胶作为电解质通路,给使用者带来诸多不便,如
20Mn23AlV高锰无磁钢的高铝含量导致连铸过程中钢水与连铸保护渣的剧烈反应,连铸坯产生大量裂纹缺陷,影响其连铸正常生产。为提高铸坯质量,保证20Mn23AlV高锰钢连铸生产顺行,