论文部分内容阅读
随着人类基因组计划的顺利完成,DNA芯片技术的完善,肿瘤研究开始进入了新的时代。肿瘤发病机理复杂而且类型繁多不易治疗,早期的肿瘤诊断和类型确定可以帮助患者挽救宝贵的生命。现在,肿瘤的诊断和分类是建立在形态学的基础上通过组织病理学观测和免疫生化特征来识别类型。但是它存在一个很大的缺陷,过分依赖于肿瘤组织病理学人员对肿瘤类型分类的经验,主观性较强,同时某些肿瘤组织特征其病理学表现形态很相似,差异性不显著,对肿瘤治疗的特异性不强。DNA芯片技术具有高通量特点,可以同时大规模测量多个组织细胞的基因表达模式,得到基因表达谱数据。由于肿瘤基因在组织细胞内表达模式差异表现出高度的特异性,依靠肿瘤基因表达谱表达值的变化可以将组织特征形态相似的肿瘤分开。基于基因表达谱的研究有助于早期准确诊断和治疗。基于基因表达谱具有小样本,高维数,高噪声的特点,本文提出一种基于相对风险特征加权的特征基因选取方法RR-FW。肿瘤细胞中的突变基因表达情况会比正常组织细胞中的基因表达情况有明显的差异。利用相对风险RR (relative risk)来挖掘具有显著差异性的表达基因。相对风险越大,基因表达差异性越显著。采用欧式距离来衡量特征向量之间的相关性,计算找出同类别最近的k个样本与不同类别最近的k个样本进行类间特征筛选。对特征标记权重,以权重的大小来衡量特征基因对肿瘤类型和亚型识别的分类能力强弱。利用两两基因冗余系数去除强冗余基因。充分的降低了维数,去除了大量的噪声和冗余基因,避免了非特异性误差的干扰。通过多个分类器训练和测试,与其他方法相比较,本文的结果优于其他方法并且以最少的特征基因,理论分类准确率可以达到100%,提高了分类器的精度和泛化性能,空间计算复杂度低,速度快,通用性较好,并且特征基因有一定的生物学意义。有利于肿瘤临床诊断与治疗药物分子靶标的确定,有助于揭示肿瘤发生机制及致病基因的生物作用。