【摘 要】
:
Spark通过使用内存分布数据集,更加适合负载数据挖掘与机器学习等需要大量迭代的工作.但是数据分析师直接使用Spark进行开发十分复杂,包括scala学习门槛高,代码优化与系统部
【机 构】
:
中国科学院大学,中国科学院软件研究所
论文部分内容阅读
Spark通过使用内存分布数据集,更加适合负载数据挖掘与机器学习等需要大量迭代的工作.但是数据分析师直接使用Spark进行开发十分复杂,包括scala学习门槛高,代码优化与系统部署需要丰富的经验,同时代码的复用度低导致重复工作繁多.本文设计并实现了一种基于Spark的可视化流程式机器学习的方法,一方面设计组件模型来刻画机器学习的基本步骤,包括数据预处理、特征处理、模型训练及验证评估,另一方面提供可视化的流程建模工具,支持分析者设计机器学习流程,由工具自动翻译为Spark平台代码高效执行.本工具可以极大的提高Spark平台机器学习应用开发的效率.论文介绍了工具的方法理论和关键技术,并通过案例表明工具的有效性.
其他文献
诸葛亮在他一生的政治和军事生涯中 ,提出了不少可贵的用人思想 ,并在实践中做出了许多成功的宝贵的用人经验。但同样 ,他在用人问题上也有过失误和过错。诸葛亮在用人问题上
随着医院对病人监护的重视,以及现代医学技术的飞速发展,监护仪作为一种常用的医疗设备在各级医院中被广泛应用。在监护仪的使用中注意对机器进行保养,可使机器运行于最好的
医用多参数监护仪是医院病房中不可或缺的医学仪器,它的使用减轻了医务人员的劳动强度,提高了护理工作的效率,为更全面、更及时、更准确的掌握患者病情,提高医疗服务质量提供
目的探讨恶性肿瘤患者射频热疗的有效护理措施。方法在患者热疗期间采用治疗前护理,治疗中护理,治疗后护理和并发症护理等整体护理措施。结果并发症发生率低,全部病例均能完
儿童在发展的某一阶段对某些玩具、物品的迷恋,某些怪癖的产生一直没有得到心理学充分的理解与阐释。英国儿童精神分析师温尼科特提出的"过渡客体"的理论可以帮助我们更好地
目的考察网纹甜瓜汁对衰老模型小鼠肝脏抗氧化功能的作用。方法 50只雄性昆明小鼠根据体重随机分为五组,分别为正常对照组,衰老模型组,瓜汁4倍稀释组,瓜汁2倍稀释组和瓜汁原
肌腱病是由过度使用造成肌腱微损伤所引起的一系列综合征,表现为肌腱及腱周疼痛、功能障碍和影像学改变。关于肌腱病的发病机制有两种学说,即炎症学说和退变学说,新近的研究
我国的非营利组织在整个社会经济中的作用越来越重要,但是一些非营利组织的内部控制却存在着严重问题。本文借鉴企业内部控制五要素对非营利组织内部控制存在的问题进行分析,
将以天然岩石矿物为原料 ,经过较简单的工艺过程合成的 13X沸石分子筛用于水中苯酚的吸附实验研究结果表明 :分子筛对苯酚的吸附速率非常快 ,吸附时间为 10min时吸附基本达饱