不完整数据集成分类算法的研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:zzhcom
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类被广泛的应用于生产、科学研究、日常生活等领域的方方面面。随着机器学习应用范围的扩大,信息技术以及互联网的迅速发展,每天都有大量的数据被收集,新的挑战和问题也随之出现。在心理学研究中经常出现研究对象可能由于对自己隐私的保护,而没有填写某些实验数据。在医学研究当中经常由于观察对象死亡而丢失后续实验的数据,这些情况都造成了最后的实验结果不完整。目前主流的分类算法都是针对完整的数据集,对不完整的数据集则束手无策。如何有效的利用这些不完整的数据,成为机器学习中又一个研究热点。集成学习由于其简单的算法和良好的泛化性能得到了广泛的应用。近年来也有人使用集成学习的方法解决不完整数据的分类问题,并取得了良好的效果。但目前针对不完整数据的集成分类算法在衡量各个子分类器的权重时只考虑了相应数据子集的维数和大小,而没有考虑到不同的属性对最终类别的贡献程度不同。信息量是个很抽象的概念,一个系统中信息量多或者信息量少,都是感性的认识,那么如何量化一个系统中信息的多与少呢?1948年克劳德·艾尔伍德·香农第一次用数学公式描述了一个系统中信息量的多少。本文利用条件熵和互信息的概念来衡量不同缺失属性之间对于类别贡献的差异,进而计算出各个子分类器的权重,使得最终的加权投票更加公平,结果更加准确。本文的主要工作如下:1.阐述了研究不完整数据的背景和意义,介绍了当前处理不完整数据的主要方法以及优缺点。阐述了弱可学习理论以及集成学习的相关概念、原理、优势和其两个主要算法:Bagging和Boosting。介绍了信息熵、联合熵、条件熵以及互信息的概念、意义和相关公式。2.针对当前集成学习处理不完整数据的不足,提出了基于条件熵的不完整数据的集成分类算法。给出了使用条件熵计算各个子分类器权值的方法。详细论述了算法的有效性和正确性。本文使用UCI的数据集,利用Bagging和AdaBoost集成学习算法进行了实验。实验结果表明该算法比简单的使用缺失属性的多少来计算子分类器的权重更有效,最终的集成结果准确度更高。3.提出了基于互信息的不完整数据的集成分类算法。该算法利用互信息衡量各个缺失属性与类别属性之间的紧密程度,进而评估各个子分类器的权重。本文使用UCI的数据集,利用Bagging和AdaBoost集成学习算法进行了实验,结果证明了该算法的有效性。4.最后对本文做出了总结以及下一步的工作。
其他文献
随着嵌入式技术、传感器技术、网络技术以及无线通信技术的不断发展,无线传感器网络作为一种新兴的“智能”网络受到了人们广泛的关注。无线传感器网络已经应用到了人类生产
闪存作为一种新型的非易失性固态存储器,由于其体积小、非易失、读写速度快、抗震性强以及能耗低等优良特性被广泛应用于各领域的存储产品中,尤其是近年来基于闪存的固态硬盘技
二维动画以其独特的风格深深吸引着广大爱好者和研究者,由于其具有丰富的表现力,因此也别广泛应用于娱乐、广告、教育等领域。但是,由于二维动画的制作过程十分复杂,产生的周期长
本文研究的是单帧图像的超分辨率重建问题。重点关注图像柔边重建效率和稀疏重建算法,并在改进的基础上将它们联合起来,其中柔边重建关注的是柔化边缘锯齿,稀疏重建运用字典库的
在软件系统中,有许多需要定期执行的任务。按照当前的业界通用做法,这些任务主要是通过操作系统的定时调度服务来运行的,如Unix和Linux系统的crond服务。这种方式相对简单,对小型
数据库自然语言接口(NaturalLanguageInterfacetoDatabase,NLIDB)因其简化了人机交互的过程,使用户可以用自己熟悉的语言查询数据库而广受欢迎,因而自然语言查询接口的研究具有
海量数据是数字时代明显的特征,数据大规模增长使得数据处理变得异常困难,样例选择是处理海量数据的主要方法之一。样例选择的目的是去除原始数据集中的冗余样例和噪音样例,从而
伴随着汽车保有量的快速增长,智能化的驾驶辅助系统获得了广泛关注。交通标志识别作为智能交通系统(Intelligent Transportationsystem,ITS)的一个重要组成部分,在上个世纪70年
近年来,对于关系数据库中Top-N查询的研究已成为国际前沿课题之一。Top-N查询是很有效的现代查询,它弥补了传统数据查询的不足,不仅能够找到与查询条件完全匹配的结果也能找到与
随着计算机、通信和网络技术的飞速发展,军队办公自动化、电子化、网络化建设正加速推进,电子军务作为军队信息化建设的基础和发展方向倍受关注。工作流系统作为一种新型、高效