论文部分内容阅读
生物信息学的研究处在一个数据爆炸的时代,近年来在基因组学、代谢组学、转录组和蛋白质组学等领域技术的进步,使得生物学家可以有更多的数据从不同方面对生命体进行分析。非正常的生命活动通常会导致基因的异常表达,这种表达值的变化可以通过微阵列技术以基因表达数据的形式呈现出来。对基因表达数据的分析可以诊断和识别植物胁迫响应类型,在出现相应症状之前减少由这些胁迫造成的影响。因为基因选择是分类中非常重要的一步,高效的基因选择和样本分类方法在大规模基因表达数据的分析中变得越来越重要。 Pathway是通路映射的集合,它代表了在分子间相互作用、反应和关系网络上的知识。利用Pathway知识进行基因初步选择,每个Pathway单元对应一个基因子集,提高基因选择结果在生物学角度上的可解释性。本文采用基于相交邻域粗糙集的属性约简方法在每个基因子集中筛选出关键基因。在集成分类阶段,采用结合近邻传播聚类的选择性集成方法。使用近邻传播聚类对基分类器进行聚簇划分,选择作为类代表点的基分类器参与最后的集成分类。在拟南芥胁迫响应相关的基因表达数据集上进行实验,表明结合Pathway知识的集成方法与现有的经典集成方法相比在准确率上最多可以提高12%,并且选择出的基因都是与植物胁迫响应相关的。 为避免在基因初选过程中剔除掉一些对分类具有潜在价值的基因,本文去除基因初选阶段,提出了相交邻域粗糙集的矩阵计算方式和近似集并行计算方法来加快计算速度,直接使用相交邻域粗糙集进行重要基因的选择。同时在基因选择过程中采用多种度量标准作为启发信息,以提高筛选出的基因子集的差异性。除此之外,对结合近邻传播聚类的选择性集成分类方法进行改进,提出一个新颖的动态选择性集成方法。在三个拟南芥胁迫响应数据集上的实验结果表明提出的方法与带有基因初选的方法相比可以获得更好的分类性能,并且采用多种启发信息能够提高基分类器之间的差异性,获得更好的分类性能。