Spark MLlib中决策树算法不同特征选择标准比较

来源 :太原师范学院学报:自然科学版 | 被引量 : 0次 | 上传用户：ziguangguo

【摘要】

：

Spark-MLlib中决策树算法根据其目标特征值是否连续分为分类树和回归树.其中分类决策树算法又根据其特征选择标准不同,分为ID3算法和CART算法.实验时分别使用信息熵和基尼系

【作者】

：

杜小芳陈毅红

【机构】

：

西华师范大学计算机学院,物联网感知与大数据分析南充市重点实验室

【出处】

：

太原师范学院学报:自然科学版

【发表日期】

：

2020年4期

【关键词】

：

决策树 Spark MLlib 信息熵基尼系数 decision treeSpark Mllibinformation entropygini coeffic

【基金项目】

：

国家自然科学基金面上项目(61871330),西华师范大学英才基金(17YC148),西华师范大学博士启动基金(16E008)

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Spark-MLlib中决策树算法根据其目标特征值是否连续分为分类树和回归树.其中分类决策树算法又根据其特征选择标准不同,分为ID3算法和CART算法.实验时分别使用信息熵和基尼系数作为分裂准则来划分训练数据集,并比较了两者在不同规模数据集上的性能表现.实验结果表明,在保持训练效率的情况下,随着数据集规模增大,使用信息熵训练的树模型其分类精度高于使用基尼系数训练的模型精度.

其他文献

复杂功能图案电子束加工版图的计算机辅助设计与实现

由于加工过程无需掩模、加工精度高和加工方法灵活等优点,电子束曝光成为了力、热、声、光、电等学科在纳米尺度开展研究的关键技术。随着纳米尺度下科学研究的推进,微纳结构所需集成的功能不断增加、几何形状复杂程度持续攀升,这对依赖于AutoCAD或者L-edit等软件进行的电子束曝光版图设计方法提出了挑战。因此,如何有效地设计和优化电子束曝光版图成为了微纳加工领域内一个重要的研究课题。基于上述电子束微纳加工

学位

电子束曝光轮廓加工边界追踪等离激元共振结构色纳米全彩打印

郑书鸿:一个有情怀的人大代表

连任三届福州市人大代表的郑书鸿对自己的履职有着明确的目标:“我要求自己履职不能走过场,脚踏实地,切切实实地为群众办些实事。”郑书鸿曾是一家企业的负责人,2007年当选福

期刊

书鸿履职部门沟通人大代表持续追踪福州市脚踏实地

用完整结肠系膜切除术治疗结肠癌的效果探析

目的：探讨用完整结肠系膜切除术治疗结肠癌的临床效果。方法：对近年来我院收治的28例结肠癌患者的临床资料进行回顾性研究。我院随机将这些患者分为甲组和乙组,每组各有14例

期刊

完整结肠系膜切除术结肠癌效果

上海城市社区公共服务供给中的政社合作供给优化研究

随着我国计划经济向市场经济的转变,社区制逐步代替单位制,社区成为社会治理的基础,肩负起稳定和谐、实现有效治理的重担。同时多元化主体合作的治理模式也代替了一体化的管理模式。如何在党和政府构建的社区治理架构中,发挥驻区单位、社会组织和民众的作用,优化社区公共服务供给中的政社合作机制,成为一个重要的理论课题和实践课题。本文对城市社区、公共服务、政社合作等概念进行界定。并详细梳理合作治理理论的内容,阐释其

学位

社区公共服务政社合作供给社区治理项目

字幕在电视真人秀中的动态创意表达研究

电视字幕的创新应用得益于电视真人秀节目的兴起与发展,真人秀节目本身丰富的节目内容与相对轻松的节目氛围,为电视字幕的创新应用提供了发展空间,真人秀节目讲究以“真”为

学位

真人秀创新字幕

Spark MLlib中决策树算法不同特征选择标准比较

其他学术论文