论文部分内容阅读
肿瘤是一种严重威胁人体生命健康的疾病。长期以来,研究人员一直都在探寻治愈肿瘤的最佳手段。然而肿瘤类型众多,即使是同一种肿瘤也可以分为许多不同的亚型,而不同亚型肿瘤的治疗手段是不同的。因此,准确而快速地对肿瘤分类能最大程度地发挥治疗效果,延长甚至挽救病人的生命。利用肿瘤基因表达谱对肿瘤进行分类是当前一种比较新的肿瘤分类手段,该方法速度快,分类过程自动化,能节省大量的人力物力资源,已经成为当前肿瘤分类领域的研究热点。但当前大部分传统机器学习方法对肿瘤基因表达谱的分类准确率普遍较低,需要设计更适合的分类算法。为了提升分类准确率,本文主要做了如下三方面工作:1.基于判别投影的字典学习分类算法。字典学习分类算法是一种比较适合处理基因表达谱数据的算法,但一般的字典学习模型只注重提升所训练的字典对样本的重构能力,而忽视了其对样本的鉴别能力。针对该问题,本文设计了基于判别投影的字典学习分类模型。在训练过程中,该模型为每一类训练样本都训练出一组子字典,每类子字典都只能对同类样本进行低误差同构。在训练字典的同时,还训练出一个投影矩阵,利用该投影矩阵对测试样本进行投影能拉大不同类别样本之间的距离。最后利用字典对测试样本的重构误差判断样本的类别。在多个公共数据集上的实验结果表明,该方法的分类准确率要高于当前主流方法。2.结合集成学习思想的字典学习分类算法。针对单个字典学习分类器分类能力较弱的问题,本文把集成学习的思想同字典学习结合起来。从训练样本的所有基因中随机抽取部分基因作为训练数据,训练专门设计的字典学习分类算法作为集成学习的弱分类器,同时训练多个这样的弱分类器,最后通过多个弱分类器的投票结果决定测试样本的类别。实验结果表明,该方法的分类准确率较其他方法有较大提升。3.针对基因表达谱数据的特征选择方法。针对基因表达谱数据大量冗余和噪声的特点,设计了一种特征选择方法以把数据中的关键基因筛选出来。首先把数据中的异常值替换为合理的值,然后对数据进行归一化处理。利用随机序列和样本距离这两种判断准则各筛选出一定数目的关键基因,取这些关键基因的交集作为最终的关键基因。和其他常规的特征基因过滤方法相比,本文的方法能在选出更少关键基因的情况下实现更高的分类准确率。