论文部分内容阅读
混合型数据集是既有离散型属性又有连续型属性的数据集。这类数据集在医疗,金融,自然现象等领域广泛存在,对它们的分类问题在现实生活中非常重要。但是对这类分类问题,一直没有有效的解决方法。
从上世纪六十年代起,人们开始用统计的方法来处理这类分类问题,效果不理想。随着机器学习的发展,人们把混合数据集统一看作连续型数据集用机器学习的方法来处理,分类效果还是不够理想。随着组合分类器的发展,人们尝试着用组合的思想来处理数据集。组合分类器的分类方法有很多种,根据对成员分类器输出的不同层次进行处理,可以分为三种:数据层面的组合方式,特征层面的组合方式和决策层面的组合方式。组合分类器已经得到了广泛的应用,并取得了良好的分类效果。
本文就是针对与混合型数据集,将其离散属性和连续属性分开处理,应用不同的处理方法,通过特征层面组合来得到组合分类器。由于离散属性和连续属性的特性不同,应用不同的分类器并将其组合,可以显著提高分类的准确度。
本文应用统计分类方法,朴素贝叶斯方法,数据层面组合方法和特征层面的组合方法对UCI中的五个数据集进行分类,并对分类结果进行比较。统计分类方法,速度很慢,得到的错分率很高。朴素贝叶斯分类器得到的时间效率很高,得到的错分率比统计方法略有提高,错分率的稳定性也比较高。
应用数据层面的组合方法(对不同数据集都应用朴素贝叶斯分类器),得到的分类器时间效率比单纯朴素贝叶斯方法有所提高,但错分率有所下降,分错率的稳定性不如贝叶斯分类器。应用特征层面的组合分类器,得到的分类器时间效率和数据层面组合的分类器差不多,速度较快,但是错分率比数据层面组合的分类器又有所下降,分类效果有明显的改善,分错率的稳定性也不错。