基于决策树的分类算法的并行化研究及应用

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:zp_3000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会各个领域计算机应用的普及,信息技术和网络技术高度发展,产生的数据量日益增大。如何有效地管理、利用数据库中数据,以及怎样才能发现其中潜在的知识,这就需要有新的、更为有效的手段来对各种数据源整理并进行分析,发现新的知识以发挥这些数据的潜能。由此数据挖掘技术应运而生并得以迅猛发展。数据挖掘,又称为数据库中的知识发现,就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在的有用的信息和知识的过程。数据挖掘是一门新兴的技术,它以数据库技术作为基础,把逻辑学、统计学、机器学习、模糊学、可视化计算等多门学科的成果综合在一起,进行如何从数据库中得到有用信息的研究。数据挖掘技术得到了人们的普遍关注和广泛兴趣,广泛应用于商品市场、银行金融、保险、公共设施、政府、教育、远程通讯、运输等各个行业中。分类是数据挖掘中的一个重要研究领域。分类是一个两步过程。首先建立一个模型,描述预定义的数据类集或概念集,然后,使用模型进行分类。决策树分类是一种非常有效的分类方法。迄今为止,人们提出了很多种不同的决策树分类算法,各种算法在执行速度、可扩展性、输出结果的可理解性,分类的准确性等方面各有千秋。但它们在理论和方法上仍有不足之处。对决策树算法的进一步优化研究将不仅有助于算法理论的完善,而且有助于算法的推广和应用。本文对数据挖掘技术,尤其是决策树分类技术进行了较为系统地分析和研究,并对现有的并行决策树分类算法提出了改进,主要包括以下一些内容:(1)数据挖掘技术的概述。本文介绍了数据挖掘的基本概念、步骤,分类、主要方法、典型应用以及所面临的挑战等等。(2)决策树分类算法的研究。本文介绍了决策树分类的一般过程,描述和分析了几种典型的决策树建树和剪枝算法及其特点,就性能进行了对比,并对决策树技术的研究方向进行了探讨。(3)决策树分类算法的优化研究。本文对决策树分类算法的时间可扩展性和空间可扩展性进行了描述,对提高可扩展性进行了研究。对决策树的并行化研究进行了细致地探讨。(4)一种决策树分类的并行改进算法。本文提出了一种决策树分类的并行改进算法,不仅可以提高计算的并行性,而且可以降低I/O及通信开销,从而达到更好的并行性能,同时它具有良好的可扩展性。(5)决策树在市场细分中的应用。将本文提出的并行决策树算法应用于具体的市场细分实例中。针对手机市场,通过并行决策树分类技术在大量的消费者购买数据中进行分析和比对,进行市场细分,完成从数据导入到生成规则的完整的数据挖掘步骤,挖掘出不同消费者的特征,为决策者提供决策支持。在理论知识商业化应用方面,本文进行了一次有意义的探索和尝试。
其他文献
结构化P2P系统中资源处理是当前面临的重要问题,覆盖网络的拓扑结构是解决这一问题的重要途径。因此,为网络设计合适的拓扑结构是非常重要的。众所周知,构造P2P网络拓扑有两个重
在计算机图形学和数字娱乐领域,手绘是一种重要的艺术呈现方式,也是人们传达思想的一种常用方式。在三维形状的创建和生成中,基于手绘的建模是一个热门的研究方向。手绘建模
近年来不断快速增长的因特网流量要求越来越大的网络容量,并且最好能够支持区分服务。波分复用(WDM)技术在这方面有很大的潜力。由Chunming Qiao和J.S.Turner等人提出的光突
无线传感器网络是由监测区域内的节点以自组织方式构成的无线通信网络。网络是以数据为中心的,节点通过相互协作来感知各种环境信息(例如温度、湿度、污染物浓度、压力等),并
NPMS(Network Performance Management System)网络性能管理系统通过对网络系统实时的监测和管理,提供了对网络系统全方位和深入的性能分析、准确的网络故障定位和主动性的网
当今电子商务市场发展非常迅速,形成了一个潜力巨大的市场,Internet上信息量和商务量爆炸式增长、网络环境日益复杂,以及产品供应商的不确定性都迫切地需要一种能够主动地、
高校教育对一个国家的生产力有着直接的影响,而一个国家的生产力又决定了国民生活标准和一个国家在全球经济中的竞争力。为了达到更高的教育目标,信息通讯技术必须得到最大程
概率论极限理论是概率论得主要分支之一,也是概率论的其它分支和数理统计得重要基础.而独立随机变量得概率极限理论又是概率论极限理论中教经典理论之一,在20世纪三四十年代已
入侵检测技术是保障网络安全的一个重要手段。随着网络规模的扩大和攻击方式的分布化,分布式入侵检测系统的研究成为热点。虽已有一些分布式入侵检测产品问世,但它们仍存在单
随着网络技术的迅速发展,互联网已经成为全球最大、最广泛使用的信息库,成为人们进行信息交流和处理的最有效平台。互联网上的数据是海量的,而且本身还以每天极高的速度增长,