【摘 要】
:
在农业信息化进程中,大数据技术手段被广泛用于挖掘农业资源,优化配置设计,捕捉消费需求,追踪市场变化等。为了应对海量数据背后的潜在信息进行挖掘分析,关于计算和数据密集
论文部分内容阅读
在农业信息化进程中,大数据技术手段被广泛用于挖掘农业资源,优化配置设计,捕捉消费需求,追踪市场变化等。为了应对海量数据背后的潜在信息进行挖掘分析,关于计算和数据密集型的科学数据分析越来越盛行。MapReduce已经成为大规模数据分析的有效框架,通过利用分布式文件系统,可以轻松地计算大规模数据集。但是现有MapReduce框架在面对不规则小文件集时性能不甚理想。因为其将数据块均匀分配到集群节点上以及基于分布式文件系统的文件读写方式。针对这个问题,本文研究在Comet上构建的MapReduce编程抽象,实现的原型系统可以有效避免数据存储造成的计算瓶颈,兼顾处理速度与成本,增强系统的可用性与扩展性。本文的主要工作概括如下:(1)分析了Hadoop MapReduce编程抽象的作业处理流程,及在处理小文件集时在实用性和可扩展性方面的缺陷。进而提出了基于Comet框架实现支持Master-Worker(BOT)并行异步计算方式的MapReduce编程抽象的方案,并尽可能利用内存中的数据进行运算操作。(2)研究了Comet MapReduce编程原型系统实现需要解决的问题。重点阐述了系统处理任务作业的工作流程、所涉及的关键接口/类的设计,以及以用户目标为驱动的任务自助调度解决方案。并分析系统API与MapReduceHadoop的API之间的异同,以便今后对Hadoop MapReduce的更多功能进行移植。(3)最后用PDB库的距离信息挖掘应用程序验证所设计的Comet MapReduce编程框架系统的运行时间、内存消耗及负载平衡等性能。并与Hadoop MapReduce进行性能对比分析。
其他文献
随机延迟微分方程是近些年来的热门课题,可广泛地应用到自然科学、金融和工程技术等许多领域,其数值解的研究具有重要的科学意义和工程实际价值。本学位论文主要针对两类随机延迟微分方程进行数值研究。首先,对一类带有Markov链的随机积分延迟微分方程应用半隐式Milstein方法,理论分析证明了半隐式Milstein方法求解方程的稳定性,给出了参数θ不同取值范围时方程MS-稳定(mean-square st
随着油气和地质勘探不断向深地深海进军,常用的被动防斜技术已不能满足垂直钻井的要求。现行应用较广的电控式垂钻系统由于包含电子和液压零件,在井下不耐高温、易损坏。机械
基于光流的动作预测方法受到了研究者的的广泛关注,通常光流适合运动幅度较大的动作预测,并且光流受外界因素影响容易引入冗余信息;基于姿态的动作预测方法比较适合细微动作
超精密定位是精密加工一项关键技术,在光刻技术、IT制造业、微观世界扫描成像等方面均发挥着重要的作用,对一个国家的高端制造水平影响重大。对二维超精密定位平台以及对其控
随着科技发展及人类生活质量的提高,现代智能制造市场的需求变得更加个性化、多样化,使得传统大批量的生产方式受到了巨大挑战。而机器人制造单元在实现大批量生产的同时,还可以保持小批量定制化生产的灵活性,能够更好地适应当前制造业智能化的发展需求,而合理优质的调度方案是机器人制造单元总体控制的一个重要方面。为了在激烈的竞争环境中生存发展,制造生产企业需要给出高效优质的资源调度方案来同时满足客户与自身的需求。
我国南方地区由于地理条件受限,蔗农种植规模相对较小,且多种植在丘陵、坡地等不利于大型甘蔗收割机械工作的地方,因此小型甘蔗剥叶机的研制具有重要的意义。甘蔗剥叶机构是甘蔗
近几年,分布式电源(DG)得到了大规模发展,接入配电网的比率越来越高,改变了传统配电网单一电源供电模式,多电源接入的配电网将成为未来配电系统的发展趋势。分布式电源的接入
目前,尤其是广西等丘陵地区,甘蔗剥叶过程的劳动强度大、剥叶效率低等问题亟待解决。大型甘蔗剥叶站主要为了适应丘陵地区的特点,将甘蔗集中起来进行剥叶,以改变当前甘蔗收获的模
随着我国基础设施建设事业的大力发展,桥梁建设工程取得了伟大的成就。与此同时,桥梁建设和使用过程中的安全检测问题也越来越重要。采用技术手段对桥梁进行安全检测,一直是
教育信息化十年发展规划(2011-2020年)的发展目标中明确要求“信息技术与教育融合发展的水平显著提升”,具体到对教师的要求则体现为要充分发挥现代信息技术独特优势,使自身教学方式与教育模式创新不断深入。因此,整合技术的学科教学知识(TPACK)是当今时代教师专业发展的重要关键性内容。如今正处在教育信息化发展十年改革的收尾阶段,我国地大物博,幅员辽阔,教育发展不均衡,青海地处祖国西部,是多民族地区