基于机器学习的内存计算优化关键技术研究

来源 :中国科学院大学(中国科学院深圳先进技术研究院) | 被引量 : 2次 | 上传用户:csincis
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年,由于相比于传统的磁盘计算框架运行迭代和交互式应用程序快数十倍,以Spark为代表的内存集群计算框架获得大量关注,发展迅速。但是由于内存集群计算框架是一种新的计算框架,配置参数对其性能的影响仍未知,因此尚未有研究解决从有优化参数角度优化Spark集群的性能。本研究首先研究配置参数对Spark性能的影响,发现由配置参数引起的最优性能是最差性能的20.7倍,说明配置Spark程序对程序的性能非常重要。然而,传统的手动调参方法既困难也很耗时,远未达到最佳性能。为解决这一问题,本论文提出一种自动优化Spark配置参数的方法(ACS)。ACS首先使用随机森林算法构造性能模型,模型以Spark配置参数为输入,程序执行时间为输出;然后ACS使用遗传算法结合性能模型搜索最优配置参数。使用六个Spark程序,每个程序搭配五个输入集进行实验,实验结果表明,ACS相比于默认配置参数的平均加速比是2.2,最高加速比达8.2,并且加速比随着输入集的增大而增大。
其他文献
1987年7~10月和1988年4~11月在川西南地区共采集到鼠类体外革螨37种,1909只.本文记录了这些革螨的宿主动物、采集地以及各宿主动物的染螨率.主要鼠种如社鼠、大耳姬鼠、黑腹绒
在改革与法治关系上,似乎形成了“改革在先,法治附随”的思维定势和惯性,导致长时期内宪法适应性问题没有受到足够重视。十八大以来,伴随改革要在宪法框架内进行和“于法有据
目的探讨胆囊结石行腹腔镜胆囊切除术围手术期的护理体会。方法将在我院行腹腔镜胆囊切除术治疗的130例胆囊结石患者随机分为对照组和观察组,各65例。对照组采用常规围术期护
2003-2004年,在冀南棉区系统研究了棉田边缘杂草带与棉田内叶螨发生的关系.试验设3个处理:转Bt基因棉化防田(使用杀螨剂控制棉叶螨且保留棉田边缘杂草)、转Bt基因棉对照田(保
基于分解的多目标进化算法(MOEAs)利用了分而治之的思想有效降低了求解多目标或高维多目标优化问题的难度。根据分解的形式不同,基于分解的MOEAs又进一步细分为基于聚合的MOE
目的探讨不明原因腹水的病因构成及性别、年龄分布。方法收集以腹水原因待查为首诊收治入院的111例患者的临床资料进行回顾性分析。结果 111例患者中,男53例,女58例,平均年龄
生物化工和精细化工等以间歇生产方式为主的技术密集型产业,在国民经济中占有重要地位。间歇过程的建模和控制困难、质量波动大等亟待解决的关键问题制约了化学工业的精细化
随着数字化技术的广泛应用以及网络科技的快速发展,在大规模化工流程工业中所采集到的时间序列数据大都呈现出高维、非线性、不确定性以及不完整性等特征,这对传统的数据挖掘
本论文主要对分子自卷曲和有机超分子的自组装做了一些研究,共分三个部分: 第一部分中,我们设计并合成了五个新的由不同长度碳链连接电子给体和电子受体的有机分子,用荧光光谱