论文部分内容阅读
随着大数据时代的到来,各行各业产生的数据都急剧增长,传统关系型数据的局限性开始暴露,很多NoSQL技术因此得到了蓬勃发展,其中HBase具有高扩展性、高可靠性和高性能等优点,在业界引起了很多关注。虽然很多互联网公司广泛应用HBase,但是它仍然有一些不足,例如,它所提供的压缩特性没有考虑列数据库按列存储的特点。因此研究快速返回查询数据、高效实用的压缩算法具有重要的意义。根据所存储数据的不同特征选取不同的压缩算法是一个分类问题,本文选取了结构简单、分类准确度较高的贝叶斯分类器。但由于算法具有基于条件独立性假设的不足,本文提出了朴素贝叶斯分类器的一种新的加权系数计算算法,该算法的加权系数是基于协方差的加权系数和信息熵的加权系数的平均值,改进后的算法不仅考虑了两两属性之间的影响,同时还考虑了单个属性对整个属性集的影响。Protocol Buffer的Base-128 Varints编码的优点是可以缩小序列化数据的体积,可以应用于存储数据。行程编码和字典编码适合在数据相似度较高的场景下使用,本文提出用Varints编码行程编码中元素出现的次数、编码整型索引的字典编码中的整型数字的改进方式,实验证明改进后的算法在一定场景下提高了压缩率。本文采用HBase作为分类器实验的数据库,选取了改进前后的行程编码、改进前后的字典编码、Gzip、Lz4和Snappy共七种算法作为HBase的压缩算法族。HBase在存储数据时,分类器先根据数据的特性计算出一种合适的算法,然后再进行压缩和存储,因此文章中研究了如何将分类器加入到HBase中。最后将新的特征加权贝叶斯分类器与朴素贝叶斯分类器进行实验对比,分别将其应用在分类HBase的算法族上,主要从分类选取算法的压缩率、压缩速度和解压速度三个方面进行测试。实验结果表明,改进后的贝叶斯分类器在压缩算法的分类选择上效果比朴素贝叶斯分类器好,并且压缩时间和查询时间的开销和朴素贝叶斯相差无几,因此改进后的算法具有可行性和应用性。