决策树分类算法的研究及其在纳税评估中的应用

来源 :中国海洋大学 | 被引量 : 0次 | 上传用户:jisenboss02
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘(Data Mining,DM)是从大量数据中发现潜在规律、提取有用知识的方法和技术。近年来,数据挖掘受到了国内外的普遍关注,已经成为信息系统和计算机科学领域研究中最活跃的前沿领域。数据挖掘已广泛应用于生物医学、金融、零售业、电信业等领域,并产生了巨大的效益。本文以为国税开发数据挖掘项目“纳税评估智能分析系统”为背景,在深入调研与分析国内外数据挖掘相关理论、应用和技术文献的基础上,详细评述了基于分类数据挖掘的相关理论与技术;并针对C4.5决策树算法实现提出了三种改进策略;并利用UCI(Irvine大学机器学习数据库)数据库作为实验数据,比较了改进前与改进后C4.5算法的执行效率,通过实验数据可以看出,改进后的C4.5算法(本文称之为QC4.5)在执行效率上有了明显的提高。 本文的主要研究内容为: 1.研究了数据挖掘的概念与发展现状、数据挖掘的过程模型与数据挖掘的分类等。 2.研究了决策树分类方法,详细阐述了C4.5决策树的构造算法、分裂准则、剪枝准则、评价方法等。 3.针对C4.5决策树算法实现,提出了三种改进策略,并通过样本集的特征选择最合适的策略,从而较好的提高了算法的执行效率。 4.最后把QC4.5(改进后的C4.5算法)算法应用于纳税评估智能分析系统中有无避税嫌疑预测,并设计实现;在实际应用中取得了较好的效果。 本文的创新主要体现在:在决策树自顶向下递归构造过程中,对于每一个连续型属性并不是使用同一种计算方法计算属性的信息增益,而是根据属性值的特征从三种改进策略中选择一种执行效率最优的策略来计算此连续属性的信息增益,从而提高整个决策树的生成效率。通过实验数据表明,QC4.5的执行效率优于C4.5,证明了方法的可行性。
其他文献
OFDM(正交频分复用)技术以其独特的抗多径衰落和高速传输性能越来越受到人们的关注,近年来在欧洲的数字音、视频广播(DAB和DVB)、高速无线局域网系统(HIPERLAN2、IEEE 802.11
近年来超宽带(UWB)无线通信技术作为目前室内短距离高速传输的一种重要的方式,已经受到学术界和工业界的广泛重视。UWB在过去主要应用在雷达和GPS定位设备中。由于UWB通信具
越来越多的嵌入式开发者选择了嵌入式Linux和Java技术合作的组合,原因是嵌入式Linux和Java技术非常适于协同工作,他们的结合预示着下一代嵌入式系统已经开始出现。同时这种组合
空时编码是未来移动通信系统的关键技术之一。代数空时编码是一种运用代数数论理论和丢番图近似理论设计出的具有满分集度和高编码增益的空时码。大多数空时码可以作为代数空
目前,数字电视国家标准正在紧急制定当中,数字电视技术在国内迅速推广,各种基于数字电视网络的增值业务层出不穷。新业务的开展必然导致数字电视网络朝交互式方向发展,因此,必须对
直接扩频通信系统的频谱扩展是借助于扩频序列实现的,常用的扩频序列就是伪随机序列.实用的伪随机序列必须是具有随机性,有尖锐的自相关特性,有较小的互相关值,要有较多的序