针对混合型数据集的一种组合分类方法

来源 :中山大学 | 被引量 : 0次 | 上传用户:wtt014789
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
混合型数据集是既有离散型属性又有连续型属性的数据集。这类数据集在医疗,金融,自然现象等领域广泛存在,对它们的分类问题在现实生活中非常重要。但是对这类分类问题,一直没有有效的解决方法。 从上世纪六十年代起,人们开始用统计的方法来处理这类分类问题,效果不理想。随着机器学习的发展,人们把混合数据集统一看作连续型数据集用机器学习的方法来处理,分类效果还是不够理想。随着组合分类器的发展,人们尝试着用组合的思想来处理数据集。组合分类器的分类方法有很多种,根据对成员分类器输出的不同层次进行处理,可以分为三种:数据层面的组合方式,特征层面的组合方式和决策层面的组合方式。组合分类器已经得到了广泛的应用,并取得了良好的分类效果。 本文就是针对与混合型数据集,将其离散属性和连续属性分开处理,应用不同的处理方法,通过特征层面组合来得到组合分类器。由于离散属性和连续属性的特性不同,应用不同的分类器并将其组合,可以显著提高分类的准确度。 本文应用统计分类方法,朴素贝叶斯方法,数据层面组合方法和特征层面的组合方法对UCI中的五个数据集进行分类,并对分类结果进行比较。统计分类方法,速度很慢,得到的错分率很高。朴素贝叶斯分类器得到的时间效率很高,得到的错分率比统计方法略有提高,错分率的稳定性也比较高。 应用数据层面的组合方法(对不同数据集都应用朴素贝叶斯分类器),得到的分类器时间效率比单纯朴素贝叶斯方法有所提高,但错分率有所下降,分错率的稳定性不如贝叶斯分类器。应用特征层面的组合分类器,得到的分类器时间效率和数据层面组合的分类器差不多,速度较快,但是错分率比数据层面组合的分类器又有所下降,分类效果有明显的改善,分错率的稳定性也不错。
其他文献
随着计算机网络技术的发展,网络攻击从单一攻击源、简单的攻击模式向大规模多层次入侵、复杂的攻击模式发展。攻击者采用各种网络技术实施逃避网络入侵检测的攻击,导致网络入
随着计算机系统在日常生活及工作中的普及,时态信息越来越多的出现在应用系统中,且很大一部分是Now相关的,也即当前的。为了存储和处理大规模的时态数据,人们引入时态数据库。其
现场总线控制系统(FCS)是二十世纪末发展起来的,继分散控制系统(DCS)之后出现的新一代控制系统,虽然它的出现才短短十来年的时间,但它代表的是一种数字化到现场、控制功能到
网络隔离的目的是为了保护内部网络的安全,而网络互连的目的是内外网进行数据交换。对于这两方面之间存在的矛盾性,提出了一种基于物理隔离的数据安全转发的技术方案。该方案采
模型检测是保证程序正确性的一条重要途径,它最大的优点就是验证过程完全自动化。然而,模型检测在规模大、复杂度高的系统的应用中却碰到了所谓状态空间爆炸问题——对很多系
当前无线网络的发展趋势表明,基于传统GSM网络和新兴WLAN(无线局域网)、Bluetooth(蓝牙)等无线通信方式实现语音应用已经比较成熟。UMA(Unlicensed Mobile Access,无授权移动
随着嵌入式技术、无线通讯技术的发展,使得具有低功耗、多功能、低成本等优点的无线传感器网络(WSN)在各行各业得到广泛的应用。与此同时,因为传感器节点携带能量有限等缺点,
本文在深入细致地研究了三维重建的理论与技术的基础上,设计并实现了一种基于切片边缘检测与最大内含圆轴线跟踪理论的血管三维重建算法。首先讨论了边缘检测与提取的理论及各
随着计算机网络和功能强大的多媒体工具的快速发展,用于图像内容认证的数字水印算法研究是当前信息隐藏技术领域的一个研究热点。本文在详细介绍了基于数字水印技术的图像认证
网格是继传统互联网、Web后的第三代互联网应用:网格计算是构筑在Internet上的一组新兴技术,其目标是在动态变化的,广域分布的异构虚拟组织间实现资源共享、协同完成科学和工