基于粗糙集理论的决策树生成系统

来源 :东北师范大学 | 被引量 : 0次 | 上传用户:nc_xujian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是利用分析工具从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取出隐含在其中事先未知、潜在有用的信息和知识的过程,建立数据间关系模型,用其做出预测,从而为决策者提供辅助决策。分类是数据挖掘中的一种重要方法。决策树是一种常用的分类模型,并以其能直接体现数据特点,分类效率高、速度快、理解性好等特点在数据挖掘及其它领域中被广泛使用;粗糙集理论将分类和知识联系在一起,认为知识是将对象分类的能力,是一种处理模糊和不精确数据的数学工具,具有很强的知识获取能力,本论文将基于粗糙集理论实现决策树生成系统。决策树生成系统,包括数据预处理,连续属性离散化,决策树生成,剪枝,评估,及预测,决策森林,生成规则几个部分。数据预处理主要针对数据缺失进行处理,主要方法为忽略元组,使用常量填充,或属性平均值填充,或元组同一类的样本平均值填充。连续属性离散化使用基于变精度粗糙集理论的频率宽度方法,决策树生成使用基于变精度粗糙集理论的分类方法。针对目前剪枝方法的不足,确定决策树复杂度衡量标准,设计一种基于错误率和复杂度的剪枝方法。计算决策树每个节点错误率及复杂度之和作为该节点是否剪枝的标准,这样保证了不过分降低精度的前提下使得复杂度最小。在生成规则阶段主要是将决策树转化为比较直观的IF-THEN规则形式,让用户能更好地理解分类结果。在处理多类数据分类的任务需要得到精确的和易于处理的方案时,传统的决策树分析方法效率和精度比较低。原因是单棵决策树不能提供充足的途径来分配多类的数据。决策森林算法提供了一个有效的方法来解决此问题。本文提出了利用不同决策属性集合构造决策森林的策略。在成熟的理论基础上,通过VC++编程语言开发决策树生成软件程序,并通过实验验证该软件取得满意的结果。我们研究的目的是生成一个紧凑的,高准确率的、易于理解和具有可伸缩性的决策树生成系统。
其他文献
本文通过对荣华二采区10
期刊
自动目标识别是当今世界军事技术研究中最具攻关性的课题之一,众多计算机视觉技术均应用于该课题的研究领域中。计算机视觉在目前仍然不能很理想的处理许多自动目标识别方面
钴铁氧体(CoFe_2O_4)薄膜具有较高的矫顽力与磁晶各向异性,化学稳定性和耐磨损性能,可作为高密度磁记录介质。本论文主要研究了缓冲层对CoFe_2O_4/Si(100)薄膜微观结构与磁性能的影响,缓冲层分别是Fe_3O_4和TbFeCo。采用直流磁控溅射技术以及真空退火制备了Fe_3O_4薄膜,并在Fe_3O_4薄膜上采用射频磁控溅射技术制备CoFe_2O_4薄膜。制备的CoFe_2O_4/F