大数据环境下的多分类逻辑回归算法研究与应用

来源 :武汉工程大学 | 被引量 : 0次 | 上传用户:chunyi19871225
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着产业界数据量的爆炸式增长,大数据中蕴含的价值受到了越来越多的关注。如何从大数据中挖掘出有效的信息,成为了一个重要的研究课题。逻辑回归算法是进行数据分类的常用方法之一,由于其模型简单、训练速度快而在医疗、金融等领域有着广泛的应用。在对逻辑回归模型进行训练时,由于训练数据集的规模增大,对执行计算的客户端的内存容量要求越来越高,传统的逻辑回归算法就显得无能为力。本文基于HBase实现了多分类逻辑回归,针对逻辑回归模型在训练数据集时可能遇到的内存限制的问题对算法进行了改进,提出了块批量梯度下降算法,用于计算回归模型的系数。本论文主要完成的工作如下:首先,将训练数据集存入HBase后,然后针对训练数据集可能超出客户端的内存限制问题,块批量梯度下降算法通过设置表扫描对象的起始行键参数,取出大小合适的含训练样本及结果值的数据块,同时避免了客户端到服务端频繁的RPC调用,每一次取出的数据块可进行多次迭代计算,加快了系数的收敛速度。当取出的数据块达到指定的迭代次数后,再按行键次序取出下一个数据块,如此循环,一直到系数收敛或者达到指定的循环控制阈值。多分类的逻辑回归问题可转换为二分类来解决,因此需要为每一个分类在训练数据表中设定结果值列,结合训练样本列簇,按块批量梯度下降算法得到每个分类的回归系数。实验结果表明,得到的回归系数,能准确的对测试样本进行分类。
其他文献
目的:观察中药麻皂平喘液联合布地奈德雾化吸入治疗小儿哮喘发作期(寒性哮喘)的疗效。方法:将87例小儿哮喘发作期患儿,按1:1比例随机分为两组,其中治疗组45例,对照组42例,两
分析了国内外煤焦油加工技术的现状,介绍了国内外大型煤焦油加工企业概况,指出低耗高效、深加工、规模化生产、强化环保意识是煤焦油加工未来的发展方向。
近几年,包括我国、俄罗斯、英国、美国、日本、韩国在内的多国均发生过对中学女生实施暴力、扒衣欺侮事件,施暴者几乎都是受害者的女同学,这反映出中学校园内女生暴力已成为
目的探讨原发肺黏液表皮样癌(pulmonary mucoepidermoid carcinoma,PMC)中程序性死亡受体1(PD-1)及其配体1 (PD-L1)、配体2 (PD-L2)表达的临床意义。方法采用免疫组化法检测4
储层静态建模不仅是油藏工程师认识储层和提高采收率的关键环节,也是地球物理工程师努力追求的目标。由于地质成因的复杂性和不同地球物理数据间的差异性,储层静态建模在实际
4月28日上午,山西省泽州县“土岭事件纪念馆”在李寨乡土岭村落成开馆。泽州县委书记刘予强、晋城市老促会会长赵国发为纪念馆开馆揭牌。
文章分别论述物资管理框架中三项重要环节在错综复杂的安哥拉共和国市场环境中应用的必然性以及所取得的成绩,以供参考。
本文讨论了地层对地震信号选频衰减的原理,并且导出了建立地层吸收衰减模型的公式:D=-27.29Q(-1)ft0;进而建立了本工区的衰减模型,计算了有关的吸收指数,层频率吸收指数G1=∑D/f,传播距
目的:探讨高通量血液透析(High-flux hemodialysis,HFHD)对维持性血液透析(Maintenance hemodialysis,MHD)患者营养状况、微炎症状态及牙周炎患病率的影响,为患者提供合理透析模
<正>当今时代,金融科技正以燎原之势席卷全球。以人工智能技术为代表的新兴技术,已经成为新一轮金融业管理模式、服务模式、运营模式和商业模式变革的主要驱动力。10月下旬,