论文部分内容阅读
分类被广泛的应用于生产、科学研究、日常生活等领域的方方面面。随着机器学习应用范围的扩大,信息技术以及互联网的迅速发展,每天都有大量的数据被收集,新的挑战和问题也随之出现。在心理学研究中经常出现研究对象可能由于对自己隐私的保护,而没有填写某些实验数据。在医学研究当中经常由于观察对象死亡而丢失后续实验的数据,这些情况都造成了最后的实验结果不完整。目前主流的分类算法都是针对完整的数据集,对不完整的数据集则束手无策。如何有效的利用这些不完整的数据,成为机器学习中又一个研究热点。集成学习由于其简单的算法和良好的泛化性能得到了广泛的应用。近年来也有人使用集成学习的方法解决不完整数据的分类问题,并取得了良好的效果。但目前针对不完整数据的集成分类算法在衡量各个子分类器的权重时只考虑了相应数据子集的维数和大小,而没有考虑到不同的属性对最终类别的贡献程度不同。信息量是个很抽象的概念,一个系统中信息量多或者信息量少,都是感性的认识,那么如何量化一个系统中信息的多与少呢?1948年克劳德·艾尔伍德·香农第一次用数学公式描述了一个系统中信息量的多少。本文利用条件熵和互信息的概念来衡量不同缺失属性之间对于类别贡献的差异,进而计算出各个子分类器的权重,使得最终的加权投票更加公平,结果更加准确。本文的主要工作如下:1.阐述了研究不完整数据的背景和意义,介绍了当前处理不完整数据的主要方法以及优缺点。阐述了弱可学习理论以及集成学习的相关概念、原理、优势和其两个主要算法:Bagging和Boosting。介绍了信息熵、联合熵、条件熵以及互信息的概念、意义和相关公式。2.针对当前集成学习处理不完整数据的不足,提出了基于条件熵的不完整数据的集成分类算法。给出了使用条件熵计算各个子分类器权值的方法。详细论述了算法的有效性和正确性。本文使用UCI的数据集,利用Bagging和AdaBoost集成学习算法进行了实验。实验结果表明该算法比简单的使用缺失属性的多少来计算子分类器的权重更有效,最终的集成结果准确度更高。3.提出了基于互信息的不完整数据的集成分类算法。该算法利用互信息衡量各个缺失属性与类别属性之间的紧密程度,进而评估各个子分类器的权重。本文使用UCI的数据集,利用Bagging和AdaBoost集成学习算法进行了实验,结果证明了该算法的有效性。4.最后对本文做出了总结以及下一步的工作。