论文部分内容阅读
随着社会各个领域计算机应用的普及,信息技术和网络技术高度发展,产生的数据量日益增大。如何有效地管理、利用数据库中数据,以及怎样才能发现其中潜在的知识,这就需要有新的、更为有效的手段来对各种数据源整理并进行分析,发现新的知识以发挥这些数据的潜能。由此数据挖掘技术应运而生并得以迅猛发展。数据挖掘,又称为数据库中的知识发现,就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在的有用的信息和知识的过程。数据挖掘是一门新兴的技术,它以数据库技术作为基础,把逻辑学、统计学、机器学习、模糊学、可视化计算等多门学科的成果综合在一起,进行如何从数据库中得到有用信息的研究。数据挖掘技术得到了人们的普遍关注和广泛兴趣,广泛应用于商品市场、银行金融、保险、公共设施、政府、教育、远程通讯、运输等各个行业中。分类是数据挖掘中的一个重要研究领域。分类是一个两步过程。首先建立一个模型,描述预定义的数据类集或概念集,然后,使用模型进行分类。决策树分类是一种非常有效的分类方法。迄今为止,人们提出了很多种不同的决策树分类算法,各种算法在执行速度、可扩展性、输出结果的可理解性,分类的准确性等方面各有千秋。但它们在理论和方法上仍有不足之处。对决策树算法的进一步优化研究将不仅有助于算法理论的完善,而且有助于算法的推广和应用。本文对数据挖掘技术,尤其是决策树分类技术进行了较为系统地分析和研究,并对现有的并行决策树分类算法提出了改进,主要包括以下一些内容:(1)数据挖掘技术的概述。本文介绍了数据挖掘的基本概念、步骤,分类、主要方法、典型应用以及所面临的挑战等等。(2)决策树分类算法的研究。本文介绍了决策树分类的一般过程,描述和分析了几种典型的决策树建树和剪枝算法及其特点,就性能进行了对比,并对决策树技术的研究方向进行了探讨。(3)决策树分类算法的优化研究。本文对决策树分类算法的时间可扩展性和空间可扩展性进行了描述,对提高可扩展性进行了研究。对决策树的并行化研究进行了细致地探讨。(4)一种决策树分类的并行改进算法。本文提出了一种决策树分类的并行改进算法,不仅可以提高计算的并行性,而且可以降低I/O及通信开销,从而达到更好的并行性能,同时它具有良好的可扩展性。(5)决策树在市场细分中的应用。将本文提出的并行决策树算法应用于具体的市场细分实例中。针对手机市场,通过并行决策树分类技术在大量的消费者购买数据中进行分析和比对,进行市场细分,完成从数据导入到生成规则的完整的数据挖掘步骤,挖掘出不同消费者的特征,为决策者提供决策支持。在理论知识商业化应用方面,本文进行了一次有意义的探索和尝试。