Spark负载均衡及随机森林算法优化研究

来源 :河北经贸大学 | 被引量 : 0次 | 上传用户:abc262648312
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的快速普及,各行各业产生并积累了海量的数据,因此如何高效地处理海量数据,从中挖掘出有价值的信息成为急需解决的重要问题。近年来,从平台方面看,Spark作为一种基于内存计算的高效的大数据处理平台,能够较好地支撑解决大数据挖掘分析处理的一系列问题,成为了学界和产业界的研究热点;从算法方面看,基于Spark平台的数据挖掘算法优化也是一个研究热点,随机森林算法是数据分类方法中的典型算法,因其较好的分类性能被广泛的应用,因此研究基于Spark的随机森林算法具有理论意义和实用价值。本文对于Spark平台及基于Spark平台的随机森林分类算法进行了相关研究,主要包括以下两个方面的内容:(1)Spark负载均衡优化研究Spark是一种基于内存计算的高效大数据处理平台,集群的负载均衡情况对于集群的运算效率具有重要影响。但其默认的任务调度策略在Spark集群下未考虑到节点的可用资源及节点当前负载的具体情况,因此在进行任务调度时可能会导致各个节点负载不均衡,进而影响集群的任务处理效率。针对于Spark的负载不均衡问题,本文提出一种基于Spark集群的自适应任务调度策略用于实现Spark集群的负载均衡优化。该策略根据节点的计算资源及负载的实际情况,使用蚁群模拟退火融合算法的启发式算法,对Spark集群的任务调度策略进行优化,实现任务的合理分配,以达到负载均衡优化的目的,从而提升集群的任务处理效率,并通过实验验证了本文所研究的对于Spark集群负载均衡优化的有效性。(2)基于Spark的随机森林算法优化研究在进行数据分析时,数据中往往包含一些冗余特征,随机森林算法在处理数据时,采用随机选择特征的方式形成特征子空间,而该方式在生成特征子空间时无法区分这些冗余特征,故而会影响随机森林算法的分类准确率。针对此问题,本文基于Spark平台对随机森林算法进行了优化。优化后的随机森林算法通过计算特征重要性进行强弱相关特征区分,随后采用分层抽取特征的方式形成特征子空间,以此提高随机森林算法整体的分类准确率。随后本文在Spark平台对优化后的随机森林算法进行了并行化并对改进后的算法分类准确率进行了验证。最后将优化后的随机森林算法应用于信用评估数据集,并通过结果验证了改进后的随机森林算法能够有效提升信用评估的准确率。
其他文献
随着我国经济社会的快速发展,物质生产资料得到极大丰富,居民的生活质量得到极大改善,居民收入总体水平增高,加快在教育领域和文化领域的建设已成我国当前社会的主要任务。在此背景下,重新关注教育消费问题具有较强的现实意义。因此,本文基于消费社会理论的整体框架,以质的研究为主,结合一定程度的定量研究,整合文化资本理论、社会分层理论等理论,对新时期我国城镇居民的教育消费展开了探讨。研究发现,我国城镇居民的教育
稠油油藏储量丰富,但由于其特殊的物性开发难度大,尤其对于特、超稠油。应用蒸汽吞吐开发效果差,高轮次吞吐后产量递减严重,储层赋存大量的剩余油。为挖掘储层潜力,改善开发
近年来,特别是2003年以来,我国期货市场发展发生了质的变化。加入WTO之前,理论界都认为,我国企业所面临的最大困难是按国际市场规则参与国际竞争,但实际上最先与国际并轨的是价格。大宗商品价格,比如能源、有色金属、橡胶、农产品等国内期货交易的商品价格近年来迅速与国际市场接轨,国际国内两个市场明显的联动,使得期货市场从离企业很远一下子变成眼前的现实。  据统计,中国经济增长对世界增长率的贡献已达14%
近几年,环境问题引起了全社会广泛的关注,京津冀地区的大气污染问题尤为严峻,因此,节能减排是京津冀未来经济发展努力的方向。随着经济的增长,各部门的产出迅速增长的同时,如果能耗增加,那么污染物的排放量也会增加,所以京津冀地区的能耗情况需要重点关注。为此,本文首先将全部能源产品归并为四大类(煤炭采选产品,石油和天然气开采产品,电力、热力、燃气的生产和供应,石油加工、炼焦和核燃料加工品),编制了京津冀混合