论文部分内容阅读
近些年分布式数据库具有高效读写性能、高可靠性、高可用性、动态可扩展等优势而得到了快速的发展。在分析了工业上各大厂商和学术上研发的多种分布式数据库产品之后,选择了开源社区开发维护的分布式数据库HBase作为研究环境。同时,新型存储介质固态硬盘因其性能优势也得到了快速发展。本课题结合分布式数据库HBase和固态硬盘的相关特点,采用有效的缓存管理算法将固态硬盘作为传统磁盘的第二级缓存,以提高的整体性能。 HBase将内存空间主要划分为写缓存和读缓存两部分。为了充分发挥固态硬盘的特性,本课题对读缓存空间进行了重新设计改进,提出了两阶段的缓存空间管理算法。为了区分从HDD和SSD读出数据块到缓存空间所产生的不同代价,第一阶段使用基于访问数据块代价规则GDF(Greedy Dual Frequency)算法来管理;为了有效区分冷热数据块,第二阶段使用LIRS(Low Inter-Reference Recency Set)算法来管理。同时,在充分理解关联规则的预取算法之后,使用了改进的Apriori算法来提高缓存命中率。 经实验测试证明,在HBase中加入固态硬盘作为传统磁盘的缓存可以有效地提高系统整体性能,特别是其读性能。