【摘 要】
:
从数据中挖掘知识和信息已成为解决许多实际问题的重要手段。决策树是最常用的数据挖掘算法之一。但现有决策树算法处理高维数据时存在计算量大、资源占用多的缺点。本论文面
论文部分内容阅读
从数据中挖掘知识和信息已成为解决许多实际问题的重要手段。决策树是最常用的数据挖掘算法之一。但现有决策树算法处理高维数据时存在计算量大、资源占用多的缺点。本论文面向高维数据,研究决策树的快速构造方法。首先,为减少构建决策树的计算量,我们提出了基于混淆度的启发式决策树构建算法。该算法利用父节点的计算结果估计部分子节点的上界,从而削减了找到子节点最优解的计算量。实验结果表明无论是单棵决策树还是集成决策树,该算法都不会对决策树的模型准确度、概念简洁性造成负面影响,并且在数据维度大于1000的高维情形下可以降低约70%的计算量。其次,为优化决策树构建过程中的资源占用和磁盘负载,我们提出了一种基于横纵划分的决策树并行构造方式。和传统方法相比,该方法的集群内存占用量从O(T)降为O(√T),其中T是并行进程数。对应的单并行进程的内存占用量从O(1)降至O(1/√T),即集群的扩大和并行数的增加可以降低单进程的内存占用量。数学分析和实验结果表明,该方法对网络通信量、磁盘读写量、计算量没有负面影响,并且在不同规模的集群上都取得了良好的并行效率。
其他文献
<正>近日,中储粮总公司通过与中国银监会协调沟通后,由银监会向各省银监局下发《关于对以中央政策性粮油办理抵质押贷款业务进行风险提示的通知》。通知要求,承储企业在办理
城乡居民大病保险试点两年来,解决了基本医保报销受最高限额控制的问题,有效拓展和延伸了基本医疗保障的功能,建立和完善了多层次医疗保障体系,创新了政府公共服务管理机制。为实
目的探讨非牵引漂浮体位在前后踝撞击症关节镜手术中的方法和临床疗效。方法选择2010-01至2015-12医院收治的前后踝撞击症患者32例,随机分为对照组和观察组,每组16例,对照组
<正>6月1日,由中国农业科学院农产品加工研究所研制、海乐达食品有限公司生产的首批第1代马铃薯主食产品——30%马铃薯全粉馒头在北京上市销售。据介绍,马铃薯馒头营养更丰富
<正>本刊讯国家食品药品监督管理总局在北京召开了仿制药质量和疗效一致性评价工作会议,贯彻落实国务院关于仿制药质量和疗效一致性评价的意见,深入推进药品审评审批制度改革
<正>重症烧伤者,重合病症呈现出多样化的特点,其中以面部烧伤者最为明显,这就注定急诊抢救过程中,高度重视护理工作的开展流程。也就是说,抢救过程中的急救护理是抢救工作顺
作为"两山"理论的发源地,丽水在"绿水青山"量化、确权、抵押、转化和厚植等方面积累了丰富经验,并实现了"生态资源"向"生态资产""金融资产""生态经济""富民资源"的转化。对于
甲烷是最重要的温室气体之一,其单分子温室效应是CO2的298倍。湿地是甲烷重要的排放源,也是氮素的源和汇。微生物参与湿地碳、氮转化的生物地球化学循环过程,湿地CH4是土壤淹
社会主义和谐社会的首要原则是公平正义,其基本要求就是公民依据其自然属性和社会属性享有平等的就业权利和其他社会权利,而不得“因社会出身、财产或其他身份等而有任何区分”
公共选择理论对公共决策问题的研究是从利益主体的行为及后果进行分析,这对我国公共决策实现科学化、民主化具有重要的现实指导意义及重要的启示价值。五点启示:即我们要正视