论文部分内容阅读
海量数据的存储问题是互联网高速发展过程中的关键问题,大量的数据需要被存储和分析,关系型数据库已经不能满足数据飞速增长的趋势,非关系型数据库在这种场景下受到了广泛的关注。关于非关系型数据的研究已经成为热点研究领域,非关系型数据库在解决海量数据存储、高并发访问等问题发挥了其极大的优点。HBase作为非关系型数据库,因其易扩展性和高可用性等优势,被国内外很多知名企业作为后端数据库存储数据。HBase数据库作为分布式开源存储集群,可以使用廉价的计算机搭建起稳定性和可用性高的存储集群。HBase数据库是面向列存储的,内部的文件储存系统使用Hadoop的HDFS,HBase是Hadoop生态系统中的重要成员。随着人们生活水平的提高,对于身体各项健康指标更加重视,构建完善的健康大数据平台对各种疾病的监测有重要意义。健康大数据平台利用HBase数据库作为其后台的数据库,HBase负载均衡对于提高整体性能至关重要,分析和研究原有负载均衡算法,策略的基本思想是保证每个Region Server的Region数目相同。但是在真实应用场景中,对于数据的读取频次并不是一致的,有些数据可能会被多次读取成为了热点数据。由于每个Region的访问并不均等,可能造成负载不均衡的情况,影响请求的响应效率。有些Region会成为热点,导致一些Region Server负载过重。对于分布式数据库的负载均衡,把数据的热度这个影响因素考虑在内是非常重要的。因此选用预测的方法二阶差分指数平滑法设计负载均衡算法,根据Region Server历史的请求数目,预测接下来数据的热度作为Region Server的负载。在实验平台搭建时,针对中华人民共和国卫生部批准的《城乡居民健康档案基本数据集》,提取数据表格模型,并且对表格的Row Key进行设计,同时使用预分区,以提高系统性能,实验使用HBase版本为hbase-1.1.12,Hadoop版本信息为hadoop-2.5.1。对上述优化进行实验验证,通过实验表明,使用优化后的方案可以提高HBase健康大数据平台的性能。