论文部分内容阅读
癌症治疗面临的重大挑战是如何针对病原上各自独特的癌症类型制定具体的治疗方法,以达到最大疗效的同时降低药物的副作用。因此,癌症检测或癌症分类成为癌症治疗的中心环节。一直以来,癌症检测主要基于肿瘤的形态表观,但这种检测方式有很大的局限性,因为具有相似组织病理学表观的肿瘤可能表现出很不相同的临床发展过程,或者对同种治疗呈现出不同反应。近年来,DNA微阵列技术的发展产生了海量的基因表达谱数据,为寻找基因之间表达调控的复杂关系网络,研究功能基因组和癌症检测提供依据。目前,利用基因表达谱进行癌症检测成为癌症研究的重点之一。但是基因表达谱数据具有高维性,高噪声,高冗余,数据分布不均衡等特点,对基因数据分析方法提出了更高要求,对基于DNA微阵列基因表达谱的癌症检测带来了挑战。本论文从基因表达谱数据的分析着手,以挖掘基因表达模式和癌症检测研究为主要目标,研究癌症检测中基因表达数据的预处理、特征基因的选取、癌症组基因表达模式的分析以及建立合适的基因诊断模型的问题。本文的主要工作归纳如下;第一,针对基因表达数据的特点,提出一种基于CMST聚类方法的分步的特征基因选择方法,然后,在分步的特征基因选择方法中引入“Gap Statistic”理论,以确定特征基因数目,提出一种自适应的特征基因的选择方法,弥补目前的特征基因选择算法中缺乏较好的基因数目预置机制的不足。第二,利用主分量分析方法(PCA)和独立分量分析方法(ICA)挖掘基因表达谱中隐含的基因表达模式,揭示癌症中基因的调控机制,通过抽样来选取特征基因子集以减少噪声对PCAP和ICAP的影响,并且根据基因子集中隐含模式的相似性来重构基因表达,提出一种基于隐含变量模型的癌症检测算法。第三,利用癌症组基因表达存在的局部特征相关性的生物病理特点,提出DNA微阵列基因表达谱中癌症组关联空间的概念,抽取不同癌症组基于关联空间的基因特征模式,研究与癌症组相关联的基因表达模式在癌症组中的表达以及调控,并提出适合癌症组相关联的基因表达模式的癌症预测算法,有效缓解基因数据集中“维数灾难”的问题。第四,由于不同的特征选择方法采用不同的搜索机制和评价策略,挑选出的特征基因偏向癌症特征的不同方面,因此不同方法选择的特征基因明显不同,导致分类器的识别结果不稳定。针对癌症组基因数据和基因组数据构建一组具有互补性分类器,提出一种组合分类算法提高癌症分类算法的泛化性能。第五,从基因之间的协同表达来分析基因数据,研究具有可解释的基因表达模式。在显现模式的提取中增加虚拟样本以挖掘具有更高辨识能力的显现模式,并在候选分割点选择策略中通过高斯分布来模拟分割点的分布,提高分割点选择的可靠性,然后提出两种基于显现模式的癌症检测算法。