论文部分内容阅读
基于基因表达谱建立具有有效预测性的肿瘤分类模型对肿瘤的临床诊断与治疗具有非常重要的意义。针对肿瘤亚型识别问题,所要解决的一个关键问题就是发现决定肿瘤亚型的一组特征基因子集。本文以急性淋巴性白血病(ALL)的七种亚型作为研究对象,从系统科学和信息科学的角度,采用人工智能和计算机技术,就急性淋巴性白血病的特征基因选取问题和亚型识别问题,基于基因表达数据进行了研究,取得如下研究成果:首先针对ALL亚型分类信息的分类权重的研究,本文采用Relief算法作为对ALL亚型进行特征基因选取的距离指标,用以剔除分类无关基因。考虑到ALL具有七个亚型,我们使用改进的Relief_F算法作为基因排序和选择的标准。其次针对ALL亚型预测模型的研究,本文分析了基于人工神经网络(ANN)的分类工具在急性淋巴性白血病肿瘤亚型识别中的应用。介绍了人工神经网络的特点及其在模式分类中的应用,同时我们设计了一个三层的BP网络模型,其隐含层节点数可以随着输入特征基因数的变化而变化。通过留一交叉检验与独立测试集评估,选取了一个包含169个基因的特征集合,以此作为BP网络模型的分类输入特征,获得了100%的分类准确率。最后针对ALL样本集中冗余基因过滤问题,提出一种基于基因表达谱聚类分析方法寻找癌症相关靶基因和共调控基因的方法,介绍了K-means聚类方法以研究特征基因集合的聚类性能,以及就所选特征基因集合与Eng-Juh Yeoh的研究成果进行了比较,还包括对所选基因功能的初步探讨。通过实验我们得到了维数更少的含有38个基因的特征基因集合。然后通过ANN预测模型重新评估了选取的特征集合的性能,证实了选取的38个基因为具有最小分类错误数的最佳分类特征子集,表明了所提出的信息基因选择方法对于多肿瘤亚型的识别问题研究是非常有效的。