决策树算法应用及并行化研究

被引量 : 16次 | 上传用户:xinyang101
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息科技飞速发展的今天,各行各业每天都会产生大量的数据,这些数据中蕴含着丰富的知识。对于善于运用数据分析的用户来讲这就是一笔财富,而对于不了解或者不会对数据进行发掘的用户就是数据垃圾。对于不同类型的数据需运用不同的挖掘算法,但传统的数据挖掘算法处理的数据量是有限的,当数据量显著增大时,就需要更合适的数据挖掘算法来处理。云计算是近几年兴起的新概念,在计算机领域,从某种意义上来讲,可以把云计算当做一种网络,一种可以处理海量数据的新模式。开发云计算架构下的数据挖掘系统是当前处理海量数据挖掘的一种趋势。通过对传统算法的改进,将算法移植到云计算平台,借助云技术的并行化处理能力,海量数据的挖掘问题也将迎刃而解。基于以上的研究背景,首先本文将对数据挖掘技术和云计算平台进行研究,然后对数据挖掘决策树算法进行处理,结合实际工作情况,对C4.5算法的应用进行研究,并使用罗比达法则对算法效能进行改进。然后根据海量数据挖掘的要求,将能产生简单决策树结构的算法-CART,进行基于随机森林模型的改进。随机森林模型对于决策树建树的数据类型、数据缺失、属性类别以及决策属性类别多值要求都不高,基于这些优点将CART算法应用到随机森林模型中能克服CART算法的弊端。最后本文将对算法并行化进行研究,通过对几个并行模型的研究,选择最合适的MapReduce编程模型将改进的CART算法实现。通过实验,将改进的CART算法在串行和并行模式下分析大量数据,实验表明算法在有效性、处理速度和加速比等方面都有较好的表现,以此验证算法改进的有效性。
其他文献
随着计算机网络技术的迅猛发展,大学生的意识形态深受互联网的影响,大学生网络思想政治教育却未得到足够重视,缺乏有效的网络思想政治教育载体和网络思想政治教育人才。新形势下
<正>(一)刘鼎:在你长期的创作中,对于雕塑语言的思考、实验、拓展和重新界定是条重要的线索,什么是雕塑?你对雕塑的看法发生过哪些根本性的变化?隋建国:最普遍意义上的雕塑,
摘要:本文提出了一种利用可编程逻辑控制器件(PLC)对他励直流电机进行速度控制的方法。该方法使PLc工作在Dc/Dc斩波模式,通过将固定直流电压转变为可变直流电压提供给电机电枢。Pa
合理的乳制品物流中心选址可有效提高物流系统的效率和降低物流成本。本文以石家庄市长安区为例,运用层次分析法对备选点进行初步评估,并在此基础上,根据实际情况建立混合整
<正> 便利快捷和四通八达的城市交通运输系统 是现代文明的结晶,直接影响到城市的经济效益和居民的生活质量。公共交通是大多数城市交通体系的主体,在满足各种质量和数量的交
利用Hungate厌氧培养技术,克服传统分离光合细菌方法的不足,是一种快速、准确、简便地分离纯化光合细菌的方法。
目的:研究桫椤叶总黄酮的提取工艺和大孔树脂吸附纯化的工艺参数。方法:采用单因素和正交实验法,以总黄酮的提取率为考察指标和采用树脂静态、动态吸附脱附实验法,以总黄酮吸附率
研究一种低毒、低成本、高效的缓蚀剂用于合金钢在海洋中的防腐具有重要意义。本文通过重量法与电化学测试相结合的方法,并设计正交实验,研究了一种适用于合金钢在海水中的缓
随着电力工业的不断发展,电力网络规模的不断扩大,设备日益更新,及电力通信网的基本形成,我国电力行业的信息化应用已经在多年前就开始不断地深化,当前变电站多采用了“五遥