一种改进的朴素贝叶斯分类器在HBase压缩存储上的研究与应用

来源 :华中科技大学 | 被引量 : 0次 | 上传用户：myoooo

【摘要】

：

随着大数据时代的到来,各行各业产生的数据都急剧增长,传统关系型数据的局限性开始暴露,很多NoSQL技术因此得到了蓬勃发展,其中HBase具有高扩展性、高可靠性和高性能等优点,

【作者】

：

王立

【出处】

：

华中科技大学

【发表日期】

：

2004年期

【关键词】

：

贝叶斯分类器特征加权 HBase Base-128Varints编码

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着大数据时代的到来,各行各业产生的数据都急剧增长,传统关系型数据的局限性开始暴露,很多NoSQL技术因此得到了蓬勃发展,其中HBase具有高扩展性、高可靠性和高性能等优点,在业界引起了很多关注。虽然很多互联网公司广泛应用HBase,但是它仍然有一些不足,例如,它所提供的压缩特性没有考虑列数据库按列存储的特点。因此研究快速返回查询数据、高效实用的压缩算法具有重要的意义。根据所存储数据的不同特征选取不同的压缩算法是一个分类问题,本文选取了结构简单、分类准确度较高的贝叶斯分类器。但由于算法具有基于条件独立性假设的不足,本文提出了朴素贝叶斯分类器的一种新的加权系数计算算法,该算法的加权系数是基于协方差的加权系数和信息熵的加权系数的平均值,改进后的算法不仅考虑了两两属性之间的影响,同时还考虑了单个属性对整个属性集的影响。Protocol Buffer的Base-128 Varints编码的优点是可以缩小序列化数据的体积,可以应用于存储数据。行程编码和字典编码适合在数据相似度较高的场景下使用,本文提出用Varints编码行程编码中元素出现的次数、编码整型索引的字典编码中的整型数字的改进方式,实验证明改进后的算法在一定场景下提高了压缩率。本文采用HBase作为分类器实验的数据库,选取了改进前后的行程编码、改进前后的字典编码、Gzip、Lz4和Snappy共七种算法作为HBase的压缩算法族。HBase在存储数据时,分类器先根据数据的特性计算出一种合适的算法,然后再进行压缩和存储,因此文章中研究了如何将分类器加入到HBase中。最后将新的特征加权贝叶斯分类器与朴素贝叶斯分类器进行实验对比,分别将其应用在分类HBase的算法族上,主要从分类选取算法的压缩率、压缩速度和解压速度三个方面进行测试。实验结果表明,改进后的贝叶斯分类器在压缩算法的分类选择上效果比朴素贝叶斯分类器好,并且压缩时间和查询时间的开销和朴素贝叶斯相差无几,因此改进后的算法具有可行性和应用性。

其他文献

嘉林药业借壳上市绩效研究

随着2004年国家强力推行医药政策红利以来,医药行业发展势头迅猛,到了2014年至2018年国家药改又进一步深化和改革,打破医药企业现有市场局面,药改的推行切实保证了人民的利益

学位

嘉林药业借壳上市绩效

某型火炮调平系统液压部件检测试验台设计

火炮调平系统的精度和稳定性,直接影响着火炮的射击精度和打击能力。本单位作为我军装备修理的基地级保障企业,肩负着火炮的大修任务。随着修理质量要求的不断提高,针对某型

学位

液压检测系统设计控制流程

不同护理干预对胸部手术ICU患者家属应对方式的影响

<正>ICU作为术后危重症加强医疗病房,由于受感染控制等诸多条件的限制,多限制家属探视,往往会使患者及家属产生危机感,表现为:生活秩序混乱,忧郁不安,紧张、焦虑、恐惧等情绪

会议

国有企业中的员工持股制度应用研究

员工持股制度自20世纪初出现以来,在很多国家都得到了普遍的应用。员工持股制度在解决企业人力资本的量化和激励、企业资金来源、建立新的劳资关系等方面起到了积极作用。本

学位

员工持股制度股权激励国有企业

烟用香精UPLC指纹图谱的夹角余弦、相关系数与欧氏距离评价

以Acquity UPLC^TM BEHC C18柱作色谱柱，硝基苯为内标，乙腈-0．1％甲酸水溶液为流动相，检测波长254nm，采用超高效液相色谱（UPLC）法测定了10种烟用香精6批次样品、稀释品和掺兑品，而后采

期刊

支持1588协议功能的25Gbps高速以太网接口设计

随着云数据中心的迅速发展,以及运营商对高带宽的需求不断增加,接入网已经逐步从10Gbps升级为25Gbps,为服务器与交换机的连接提供了高密度、低成本和低功耗的解决方案。随着25Gbps以太网的普及,对于25Gbps以太网接口的研究和设计也势在必行。本课题对25Gbps高速以太网接口的媒体访问控制层(Media Access Control,MAC)和物理编码子层(Physical Coding

学位

数据中心IEEE802.3by25Gbps以太网接口1588UVM

LIRA3250型CO2监测仪的改进

针对LIRA3250型CO2监测仪器存在的测量方法落后，结构复杂，稳定性差等问题进行了改进。即通过对技术性能进行比较，选用量程为0—3％的GMT221CO：浓度传感器／变送器作为CO2监测仪的测量

期刊

CO2监测仪传感器量程CO2 Monitor Sensor Measurement range

运用生活化教学巧量不规则物体体积探研

生活化教学将贴近学生生活的素材引入到数学教学之中,同时让学生尝试将学到的知识用于解决生活问题。在指导学生测量不规则物体体积时,教师可以采用这样的教学策略,让学生观

期刊

数学教学生活化教学不规则物体教学策略知识建构

上海石化开发超细纤维合成革用低密度聚乙烯

超细纤维合成革用低密度聚乙烯LF5000是中国石化上海石油化工股份有限公司（简称上海石化）开发的新产品，熔体流动性较高，与聚酰胺6（PA6）混合纺丝时，能利用其与PA6的黏度差，将PA6分割成

期刊

超细纤维合成革低密度聚乙烯上海石化中国石化上海石油化工股份有限公司开发熔体流动性混合纺丝PA6

一种改进的朴素贝叶斯分类器在HBase压缩存储上的研究与应用

其他学术论文