论文部分内容阅读
基于机器学习的舌图像的颜色分类是中医舌诊现代化的重要内容。将舌体颜色地进行分类是实现中医舌诊客观化的关键步骤,也为后续中医自动辅助诊断奠定基础。在目前有关舌色自动分类的文献中,一般都是采用单一分类器进行。为了进一步提高舌色分类的准确度,本论文采用集成学习方法对舌色分类进行研究,本论文主要的主要工作如下。1、确定舌图像颜色特征。本文对比了RGB、Lab、HSV色彩模型,最终选择了Lab与HSV共同作为舌图像的颜色特征。对于舌图像来说,苔色往往影响着舌体颜色的判断,本文使用k-means方法对这部分舌图像进行了苔质分离。以便于后续舌体颜色的提取和判断。而后对分割后的舌图像进行样本子块的手动选取,以增加样本总量。在分类方法的选取方面,集成学习是将多个分类器的优点进行组合,它往往可以得到比单一分类器更优越的性能。因此本文选择集成学习方法作为本文的基础研究方法,而后通过对集成学习方法中的代表方法进行实验对比,选择了boosting方法中的代表算法Adaboost方法作为本文主要研究方法。2、提出DataBoost-IM结合GE-SMOTE的方法对舌图像数据不平衡问题进行处理。舌图像样本类间样本数量差距较大,各类别样本不均衡。针对这一问题,本文通过比较三种不同的数据集处理方法,选择了GE-SMOTE方法进行数据集预处理。然后设计了DataBoost-IM方法与GE-SMOTE方法结合的针对不平衡数据集的分类方法将其用于处理舌图像样本集不平衡的问题。实验证明,与单纯使用GE-SMOTE方法处理数据集然后使用Adaboost分类相比,对小样本类别获得了更高识别精度。3、采用加入辅助判断函数的Adaboost级联框架分类器进一步提高了舌色分类准确率。本文设计并实现改进的Adaboost级联框架分类器,以Adaboost分类器为基础,与级联框架相结合,而后加入辅助判断函数所构成的。实验结果表明,这种方法获得了较高的识别准确率,而在算法的时间复杂度较低。