论文部分内容阅读
互联网技术的发展在给人们带来了便利的同时也产生了庞大的数据。大数据学习时代已经到临,如何训练模型在数据中找出人们感兴趣的信息,帮助人们进行决策,已成为研究领域与产业领域的重要课题之一。大数据学习时面临减弱噪声数据影响、模型高速训练、多模型训练及样本高速提取等挑战。本文工作围绕大数据学习中模型训练性能优化与样本提取性能优化两个方面开展工作。在模型训练性能优化方面,提出了支持在线极限学习机集成框架的并行模型训练方法与支持多个在线极限学习机的并行模型训练方法。在样本提取性能优化方面,提出了支持高速更新多维海量数据源上的样本提取方法与支持高并发多用户的多维海量数据源上样本提取方法。本文主要贡献点如下:(1)针对大数据学习中减弱噪声数据影响与模型高速训练的问题进行研究。提出一种在线极限学习机集成框架(EOS-ELM),该框架支持Bagging、子空间划分与交叉验证三种集成学习方法的任意组合。在此基础上提出一种支持在线极限学习机集成框架的并行模型训练方法(Paralle Ensemble of Online Sequential Extreme Learning Machine,PEOS-ELM),该方法支持大数据的准确与高速的分析。利用真实数据集与合成数据集对PEOS-ELM进行评测,评测结果显示在具有80个核的集群中,PEOS-ELM可达到40倍的加速比;并且PEOS-ELM的准确率与EOS-ELM准确率在同一水平上且两者准确率均高于在线极限学习机算法。(2)针对大数据学习中多模型高速训练问题进行研究。提出一个支持多个在线极限学习机的并行模型训练方法(Batch Parallel Online Sequental Extreme Learning Machine,BPOS-ELM),该方法可使用一个MapReduce作业高速完成多个模型的训练。BPOS-ELM根据历史统计信息对Map阶段与Reduce阶段执行进行预测。对于Map阶段执行时间的预测,BPOS-ELM使用基于回归的方法和基于k近邻与反向距离权重插值的方法。对于Reduce阶段执行时间预测,BPOS-ELM使用基于复杂度分析与回归的方法。BPOS-ELM使用贪心算法生成执行方案,在完成多模型训练后收集任务执行信息以提高后续任务Map阶段与Reduce阶段执行时间预测的准确率。使用真实数据集与合成数据集对BPOS-ELM进行评测。评测结果显示BPOS-ELM在具有32个CPU核心的集群上可达到10倍的加速比。(3)针对多维海量数据源上样本提取问题进行研究。提出一种支持高速更新多维海量数据源上的样本提取方法,该方法基于R树与HBase设计并实现一种高效率的索引R-HBase。R-HBase采用具有索引层与存储层的两层索引结构,存储层以HBase存储,支持高速的数据存取。索引层采用R树索引,支持高速的样本提取并可以支持如Z-order与Hilbert等多种空间填充曲线。基于该索引,提出数据插入算法与样本提取算法。使用合成数据集对该方法数据更新与样本提取性能进行评测,评测结果显示所提方法可以支持每秒5000余次的数据更新,并且可以支持高速的样本提取。(4)针对多维海量数据源上支持多用户数据更新与样本提取的问题进行研究。提出支持高并发多用户的多维海量数据源上样本提取方法。首先提出基于R树与HBase的索引HMVR-tree。该索引提供同步机制,可支持用户的并发读写访问。接着基于该索引提出数据更新算法与样本提取算法。通过合成数据集对数据更新与样本提取效率进行评测。评测结果显示所提方法具有很好的可扩展性。