【摘 要】
:
随着Web技术的发展,大量数据也随之产生,面对海量数据的存储和分析等相关问题,云存储、云计算、大数据分析和数据挖掘等相关概念也被相应提出。目前来说,在大数据背景下,Apac
论文部分内容阅读
随着Web技术的发展,大量数据也随之产生,面对海量数据的存储和分析等相关问题,云存储、云计算、大数据分析和数据挖掘等相关概念也被相应提出。目前来说,在大数据背景下,ApacheHadoop已经成为了分布式大数据处理技术的参考框架,能够有效提高海量数据处理的效率。在Hadoop框架中,数据副本管理技术一直以来都是研究的热点与难点。尽管在HDFS数据副本管理方面目前已经开展了大量的研究工作,但是如何设置合适的副本个数以适应文件访问热度的变化,同时如何放置副本以优化集群负载仍是需要研究并解决的关键问题。本文通过调研目前HDFS数据副本管理工作的研究现状以及存在的不足,针对于HDFS数据副本管理中所存在的副本个数设置以及副本放置问题开展了研究工作,并且在此基础上设计并实现一个数据副本管理工具。针对于HDFS副本数量设置问题,本文提出一个基于文件访问热度的副本数量计算方法。该方法定义文件访问热度的概念,以度量文件的访问频率,并在此基础上,通过时间序列分析技术对文件访问热度进行预测,以反映文件访问热度随时间变化的动态变化规律。在此基础上,建立文件访问热度与副本个数之间的关系,从而给出副本个数的计算公式和相应的算法,能够有效避免静态副本个数设置所带来的难以有效适应访问热度变化的问题,从而能够有效提高集群的利用率以及负载均衡。针对于副本放置问题,本文在考虑文件间所具有的Join访问关联性的基础上,针对于目前副本放置中没有考虑Join访问关联性对于副本放置影响的问题,给出Join访问关联性度量方法,并在此基础上给出考虑Join访问关联性的副本放置问题的数学模型,并给出求解该问题的启发式算法。通过考虑文件间的Join访问关联性,具有Join访问关联性的文件块将被放置在通信代价较低的节点上,从而能够降低数据传输代价,保证作业执行时间。在此基础上,本文运用软件工程的理论和方法,给出HDFS副本管理工具的设计和实现。给出HDFS副本管理工具的用例分析,并在此基础上给出其体系结构设计,功能设计和数据库设计。完成副本个数预测模块、动态副本调整模块、Hadoop集群状态模块、访问日志获取模块和数据库等设计和实现,并对关键功能模块进行了功能测试。最后,本文开展了一系列的实验,对所提出的方法和相关算法进行了测试,实验结果表明本文提出的方法在集群的并发性、任务执行的效率和集群的负载均衡情况上都有了很大的提高。目前,所开发的副本管理工具已经应用于健康大数据管理与分析服务支撑系统(国家科技支撑项目)的课题中,应用效果表明该副本管理工具适用于该系统,同时在一定程度上提高了该系统的数据存储和分析的效率。
其他文献
目的:比较现有预后评分系统在新诊断的慢性粒细胞白血病慢性期(CML-CP)患者中预测疗效及预后工具的有效性。识别治疗反应率和生存率明显较低的CML-CP患者,有利于进行早期干预。进一步评估ELTS评分作为预测“CML相关性死亡发生率”这一新指标的能力。方法:回顾性分析2010年1月至2019年8月在我院确诊并接受一线伊马替尼治疗的172例CML-CP患者,采用Sokal、Hasford、EUTOS
本文研究了从土壤中分离筛选到一株产普鲁兰酶的野生菌,根据其形态特征、生理生化鉴定和16S rDNA确定该菌为巨大芽孢杆菌(Bacillus megaterium)。对该菌株产普鲁兰酶能力进行
随着全球化程度日益加深和我国对外开放程度不断加大,越来越多的来自世界各地的外国人选择中国旅游、工作、学习和生活。Q市是我国北方著名的旅游城市,拥有丰富的旅游资源,与首都北京的距离近,近几年,前往Q市旅游、经商和求学的外国人不断增加,他们活动范围逐渐复杂化、分散化和流动化。外国人管理工作是公安机关出入境管理的一项重要内容,直接关系到国家安全和社会的稳定,面对新形势下外国人数量不断增多、活动形式日趋多
人、机、物三元世界的高度融合引发了数据规模的爆炸式增长和数据模式的高度复杂化,世界已进入网络化的大数据时代。大数据蕴藏着不可低估的商业价值,人工智能、机器学习、深
土壤渗滤系统是一种有效的分散式农村污水处理工艺,但存在高水力负荷和高污染去除效率不能共存的瓶颈,限制了其在土地资源紧缺地区的应用。针对这一问题,本文构建了一套由多
随着知识经济的快速发展,各行各业的人们对领域知识需求不断增强,人们获取知识的程度显然影响了自身发展以及在行业中发展的质量和速度。知识提取手段能够帮助人们从大量非结
谷胱甘肽(GSH)是一种由三个氨基酸组成的小分子多肽,是生物体内重要的抗氧化剂和自由基清除剂。谷胱甘肽通过与自由基或重金属结合,将机体内的有害物质转化为无害物质,从而起
云南保山西邑铅锌矿床位于保山地块中北部,是近年来发现的一个大型铅锌银多金属矿床,同时也是铅锌隐伏矿找矿取得重大突破的典型矿床。本文在野外地质调查和室内显微镜观察的
随着我国城市规模的扩大,机动车数量增长迅速,交通拥堵、道路阻塞、交通事故等诸多问题突出,大力发展公共交通是缓解城市交通问题的有效途径。公交网络设计是构建城市公交网络的基础,论文在总结已有研究的基础上,从公交大数据的处理分析入手,考虑城市公交网络中不确定性,研究在公交阻抗不确定的情形下公交网络优化模型的构建以及相应求解算法。首先论文介绍了公交大数据的基本类型和各类数据的基本结构,给出了不同公交大数据
蛋鸡养殖行业中,集约化养殖、高效率养殖等原因以及蛋鸡成长所需环境的温度、湿度等因素,往往使得养殖场大环境中致病细菌繁多,导致蛋鸡易染细菌。另外养殖场蛋鸡一生产蛋频繁、产蛋周期长,中老年蛋鸡常常患有输卵管炎、腹膜炎等炎症,使得产蛋效率低下,产蛋品质不佳。在当今限制、禁止抗生素的大势下,养殖行业为解决以上问题的最佳出路为选择植物提取物来预防与治疗疾病、促进生长与生产、减少病死率,此法不仅保证了经济利益