论文部分内容阅读
随着信息技术的快速普及,各行各业产生并积累了海量的数据,因此如何高效地处理海量数据,从中挖掘出有价值的信息成为急需解决的重要问题。近年来,从平台方面看,Spark作为一种基于内存计算的高效的大数据处理平台,能够较好地支撑解决大数据挖掘分析处理的一系列问题,成为了学界和产业界的研究热点;从算法方面看,基于Spark平台的数据挖掘算法优化也是一个研究热点,随机森林算法是数据分类方法中的典型算法,因其较好的分类性能被广泛的应用,因此研究基于Spark的随机森林算法具有理论意义和实用价值。本文对于Spark平台及基于Spark平台的随机森林分类算法进行了相关研究,主要包括以下两个方面的内容:(1)Spark负载均衡优化研究Spark是一种基于内存计算的高效大数据处理平台,集群的负载均衡情况对于集群的运算效率具有重要影响。但其默认的任务调度策略在Spark集群下未考虑到节点的可用资源及节点当前负载的具体情况,因此在进行任务调度时可能会导致各个节点负载不均衡,进而影响集群的任务处理效率。针对于Spark的负载不均衡问题,本文提出一种基于Spark集群的自适应任务调度策略用于实现Spark集群的负载均衡优化。该策略根据节点的计算资源及负载的实际情况,使用蚁群模拟退火融合算法的启发式算法,对Spark集群的任务调度策略进行优化,实现任务的合理分配,以达到负载均衡优化的目的,从而提升集群的任务处理效率,并通过实验验证了本文所研究的对于Spark集群负载均衡优化的有效性。(2)基于Spark的随机森林算法优化研究在进行数据分析时,数据中往往包含一些冗余特征,随机森林算法在处理数据时,采用随机选择特征的方式形成特征子空间,而该方式在生成特征子空间时无法区分这些冗余特征,故而会影响随机森林算法的分类准确率。针对此问题,本文基于Spark平台对随机森林算法进行了优化。优化后的随机森林算法通过计算特征重要性进行强弱相关特征区分,随后采用分层抽取特征的方式形成特征子空间,以此提高随机森林算法整体的分类准确率。随后本文在Spark平台对优化后的随机森林算法进行了并行化并对改进后的算法分类准确率进行了验证。最后将优化后的随机森林算法应用于信用评估数据集,并通过结果验证了改进后的随机森林算法能够有效提升信用评估的准确率。