以相关性确定条件属性的概化决策树

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:liongliong593
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是一种可以从海量数据中智能的和自动的抽取一些有用的、可信的、有效的和可以理解的模式的过程,也被称之为数据库中的知识发现。分类是数据挖掘的一种非常重要的方法。分类的概念是在已有数据的基础上学会一个分类函数或构造出一个分类模型,即分类器。该函数或模型能够把数据库中的数据记录映像到给定类别中的某一个。分类方法拥有大量的应用实例,如金融市场走向分析、顾客信用度分析、医疗诊断等。 决策树是数据挖掘中一种应用最为广泛的分类器。其原因如下:1、决策树分类的直观表示方法较容易转化为标准的数据库查询;2、决策树分类归纳的方法行之有效、尤其适合于大型数据集;3、决策树在分类过程中,除了数据集中已包括的信息外,不再需要其他额外的信息;4、决策树分类模型的预测准确度较高。 文章在介绍了一些典型的决策树分类算法的基础上,研究了一种基于相关性分析的决策树分类器。其主要思想是通过属性相关性来压缩训练集的大小并在建立决策树过程中采用此度量值来确定划分条件属性的顺序,通过阈值设定和处理简化了决策树的剪枝和优化过程,提高了处理的效率和规模。文章最后详细描述了算法的执行过程以及正确性证明和时间复杂性分析。
其他文献
Internet应用的普及,要求企业内部网的职能范围超越了物理位置的限制,同时网络上传输的数据也需要越来越高的安全保障。随着应用程序从C/S结构向Web迁移,如何在不影响外部用户使
数据挖掘是致力于数据分析和理解、揭示数据内部蕴藏知识的技术,它成为未来信息技术应用的重要目标之一。经过十几年的努力,数据挖掘产生了许多新概念和方法,相应研究向着更深入
随着流媒体技术的进步和宽带网络的建设,IPTV在全球已得到较快发展。IPTV核心业务VOD需要将各种各样的节目源转码为符合IPTV系统的格式,这对现存数十万个小时的节目内容提供商
本文对网页的关键短语自动生成进行了研究,提出了KEA算法的改进算法WKEA,并设计和实现了基于WKEA算法的自动网页摘要浏览原型系统——KNM系统(KeyPhrasesNavigationMapSystem)
六面体网格被广泛应用于航空航天、机械制造、建筑设计、生物医疗、地质模拟等领域的科学计算。网格划分的质量对计算结果的精度有着极大的影响,网格质量越高,结果就越符合实
在大型数据库中挖掘关联规则是数据挖掘领域的一个十分重要的研究内容。面对大型数据库,关联规则挖掘需要在挖掘效率、可用性、精确性、可理解性等方面得到提升。鉴于目前数据
无线传感器网络(Wireless Sensor Networks, WSN)是融合无线通信技术和传感器技术的网络技术,受到了学术界的广泛关注和世界各国的重视。随着无线传感器网络的发展,现已在许多领
对于在时变、带宽受限的网络中进行的实时视频通信,用户终端的处理能力和用户对服务质量的需求具有异构的特点。作为一种针对性的解决方案,可扩展视频编码技术对视频数据只编码
信息化是当今社会发展的主旋律,随着网络应用日益广泛、信息技术条件不断完善以及政府在宏观政策上的强力引导,许多企事业单位都有了自己的信息平台。另一方面随着移动通讯技术
随着互联网的飞速发展和无线传输技术的日益完善,人们对于互联网提供移动性服务支持的要求越来越迫切。所以主机移动问题成为当前一个热点研究方向,为此IETF成立了很多工作组,并