基于云计算的大数据学习性能优化技术研究

来源 :东北大学 | 被引量 : 1次 | 上传用户:hamainini
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的发展在给人们带来了便利的同时也产生了庞大的数据。大数据学习时代已经到临,如何训练模型在数据中找出人们感兴趣的信息,帮助人们进行决策,已成为研究领域与产业领域的重要课题之一。大数据学习时面临减弱噪声数据影响、模型高速训练、多模型训练及样本高速提取等挑战。本文工作围绕大数据学习中模型训练性能优化与样本提取性能优化两个方面开展工作。在模型训练性能优化方面,提出了支持在线极限学习机集成框架的并行模型训练方法与支持多个在线极限学习机的并行模型训练方法。在样本提取性能优化方面,提出了支持高速更新多维海量数据源上的样本提取方法与支持高并发多用户的多维海量数据源上样本提取方法。本文主要贡献点如下:(1)针对大数据学习中减弱噪声数据影响与模型高速训练的问题进行研究。提出一种在线极限学习机集成框架(EOS-ELM),该框架支持Bagging、子空间划分与交叉验证三种集成学习方法的任意组合。在此基础上提出一种支持在线极限学习机集成框架的并行模型训练方法(Paralle Ensemble of Online Sequential Extreme Learning Machine,PEOS-ELM),该方法支持大数据的准确与高速的分析。利用真实数据集与合成数据集对PEOS-ELM进行评测,评测结果显示在具有80个核的集群中,PEOS-ELM可达到40倍的加速比;并且PEOS-ELM的准确率与EOS-ELM准确率在同一水平上且两者准确率均高于在线极限学习机算法。(2)针对大数据学习中多模型高速训练问题进行研究。提出一个支持多个在线极限学习机的并行模型训练方法(Batch Parallel Online Sequental Extreme Learning Machine,BPOS-ELM),该方法可使用一个MapReduce作业高速完成多个模型的训练。BPOS-ELM根据历史统计信息对Map阶段与Reduce阶段执行进行预测。对于Map阶段执行时间的预测,BPOS-ELM使用基于回归的方法和基于k近邻与反向距离权重插值的方法。对于Reduce阶段执行时间预测,BPOS-ELM使用基于复杂度分析与回归的方法。BPOS-ELM使用贪心算法生成执行方案,在完成多模型训练后收集任务执行信息以提高后续任务Map阶段与Reduce阶段执行时间预测的准确率。使用真实数据集与合成数据集对BPOS-ELM进行评测。评测结果显示BPOS-ELM在具有32个CPU核心的集群上可达到10倍的加速比。(3)针对多维海量数据源上样本提取问题进行研究。提出一种支持高速更新多维海量数据源上的样本提取方法,该方法基于R树与HBase设计并实现一种高效率的索引R-HBase。R-HBase采用具有索引层与存储层的两层索引结构,存储层以HBase存储,支持高速的数据存取。索引层采用R树索引,支持高速的样本提取并可以支持如Z-order与Hilbert等多种空间填充曲线。基于该索引,提出数据插入算法与样本提取算法。使用合成数据集对该方法数据更新与样本提取性能进行评测,评测结果显示所提方法可以支持每秒5000余次的数据更新,并且可以支持高速的样本提取。(4)针对多维海量数据源上支持多用户数据更新与样本提取的问题进行研究。提出支持高并发多用户的多维海量数据源上样本提取方法。首先提出基于R树与HBase的索引HMVR-tree。该索引提供同步机制,可支持用户的并发读写访问。接着基于该索引提出数据更新算法与样本提取算法。通过合成数据集对数据更新与样本提取效率进行评测。评测结果显示所提方法具有很好的可扩展性。
其他文献
城市化模式具有内容的多维性、形成的复杂性和演进的动态性等内涵特征。在城市化动力机制、表现特征和空间形态等演进规律的作用下,城市化模式的形成遵循城市化的内在规律,存
鲁迅《从百草园到三味书屋》中有“玉如意,指挥倜傥,一座皆惊;金叵罗,颠倒淋漓,千杯未醉”一联,新版《鲁迅全集》注,说:这一联是清末武进人刘翰的《李克用置酒三垂冈赋》中语,载王先谦
<正>小儿夜啼,多发生于一岁以内的婴幼儿,新生儿更为多见,小儿夜啼妨碍小儿正常发育,同时影响家长保姆睡眠使之疲惫不堪,笔者用中药治疗疗效较理想,简介如下,希同道指正。
<正>一、农机合作社发展概况和特点随着现代农业发展和城镇化建设的加快,农村空心化、家庭空巢化的现象越来越严重,青壮年外出打工挣钱,老人妇女留守种田已成为农村劳动力结
<正> 一年一度的哈尼年长街宴于农历十月择龙日举行。我们于2003年11月8日赴红河县甲寅乡千户哈尼大赛参加哈尼年节目。这天是个晴朗的日子,天随人愿,人们的心情格外好。在这
<正>目前,教育消费需求居我国增长较快的八大消费需求之首.为了使人们形成正确的教育投资观念,作出合理的教育投资选择,以活化现有资源,拉动经济增长,人们对教育投资的性质、
当下,中国特色社会主义进入新时代、新阶段,党中央高度重视新闻舆论工作。在这种背景下,新闻舆论工作不仅要面向国内,还要面向国际,充分发挥对外传播的优势,塑造良好的国际形
<正> 十二指肠球部溃疡所致瘢痕性幽门梗阻,临床出现诸多症状,内科治疗如禁食、插胃管、补液等给病人增加不适,外科手术治疗,易产生吻合口炎、吻合口溃疡,胃空肠吻合输入袢综
目的建立慢性阻塞性肺疾病(COPD)大鼠模型,探讨Rho激酶抑制剂Y-27632对COPD大鼠模型气道重塑的作用机制。方法将30只雄性Wistar大鼠随机分为COPD模型组和Y-27632干预组和正常
互文性理论是文学理论的一个重要新概念。总体说来,理论家们一致认为在互文性理论下,任何文本都不是一个孤立的存在,任何文本在一定程度上都是互文本。因此,读者对某一文本的