基于HBase的大数据平台负载均衡算法分析与优化

来源 :北京工业大学 | 被引量 : 3次 | 上传用户:leimu438
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
海量数据的存储问题是互联网高速发展过程中的关键问题,大量的数据需要被存储和分析,关系型数据库已经不能满足数据飞速增长的趋势,非关系型数据库在这种场景下受到了广泛的关注。关于非关系型数据的研究已经成为热点研究领域,非关系型数据库在解决海量数据存储、高并发访问等问题发挥了其极大的优点。HBase作为非关系型数据库,因其易扩展性和高可用性等优势,被国内外很多知名企业作为后端数据库存储数据。HBase数据库作为分布式开源存储集群,可以使用廉价的计算机搭建起稳定性和可用性高的存储集群。HBase数据库是面向列存储的,内部的文件储存系统使用Hadoop的HDFS,HBase是Hadoop生态系统中的重要成员。随着人们生活水平的提高,对于身体各项健康指标更加重视,构建完善的健康大数据平台对各种疾病的监测有重要意义。健康大数据平台利用HBase数据库作为其后台的数据库,HBase负载均衡对于提高整体性能至关重要,分析和研究原有负载均衡算法,策略的基本思想是保证每个Region Server的Region数目相同。但是在真实应用场景中,对于数据的读取频次并不是一致的,有些数据可能会被多次读取成为了热点数据。由于每个Region的访问并不均等,可能造成负载不均衡的情况,影响请求的响应效率。有些Region会成为热点,导致一些Region Server负载过重。对于分布式数据库的负载均衡,把数据的热度这个影响因素考虑在内是非常重要的。因此选用预测的方法二阶差分指数平滑法设计负载均衡算法,根据Region Server历史的请求数目,预测接下来数据的热度作为Region Server的负载。在实验平台搭建时,针对中华人民共和国卫生部批准的《城乡居民健康档案基本数据集》,提取数据表格模型,并且对表格的Row Key进行设计,同时使用预分区,以提高系统性能,实验使用HBase版本为hbase-1.1.12,Hadoop版本信息为hadoop-2.5.1。对上述优化进行实验验证,通过实验表明,使用优化后的方案可以提高HBase健康大数据平台的性能。
其他文献
目的:观察中医药辨证治疗对鼻咽癌急性放射反应的影响。 方法:将195例确诊为鼻咽癌并进行首次放疗的患者,按数字表法随机分为治疗组与对照组,治疗组106人,对照组89人:治疗
行政执法责任制是我国依法行政的创新制度,已经深入到包括卫生行政执法在内的各个行政领域.本文通过回顾行政执法责任制的产生与发展,分析了其主要特征及理论基础,论述了该制
中国电视传媒正面临一个新的发展环境,全球化、产业化、数字化,对中国电视传媒的现状提出了严峻的挑战。中国传媒长期以来在计划经济的模式之下发展,虽然取得了突出成就,但是与目
上世纪80年代以来,美国、日本等多数国家组建特别的债权处置机构,以消化金融不良债权,应对本国的金融危机。我国在1999年成立了中国华融、信达、长城、东方等四家专业金融资产管
虽然人们已知“永动机”只是在人类科学史上试图获得永久能源的梦,但人们追求用少的材料以获得最大动力能源的努力一直未停止过。以N4,N6等为代表的聚氮化合物由于分解时释放出
物流配送中心是现代物流业的重要组成部分。以往优化配送中心的过程常在配送中心运作时进行,通过对已建成的配送中心各环节的分析,改进作业过程或改建配送中心的设备。这种做法
任何企业或个人必须适应环境才能生存,对企业中的各种现象,应该从企业和环境的关系上来认识。上市公司财务报告舞弊案件的不断爆发,已影响了公众对上市公司和资本市场的信心。财
期刊
在移动互联网的环境下,教育教学面临着机遇与挑战,传统的教学模式已经难以满足全新教育体制的基本要求,必须对教学模式加以创新和优化,为提高教学质量提供保障。基于移动互联
目的观察基于压疮风险因素评估的针对性护理措施对神经内科老年患者压疮的预防效果。方法随机将我院2016年1月至2017年7月115例神经内科老年患者分为2组,常规组57例予常规护
作为一种重要的新体制雷达,采用超宽带技术的雷达在理论和技术上不断发展,并逐渐应用于实战。超宽带雷达具有低截获性及抗侦察、抗干扰、抗摧毁等性能,对传统的侦察体制提出