论文部分内容阅读
癌症是一种异质的且对人类健康危害极大的疾病,癌症亚型的精准定义对癌症诊断和治疗意义深远。传统的癌症亚型分类主要基于组织学特异性,但是无法从分子角度探索癌症发生的本质。随着高通量测序技术的发展,第二代测序技术可以在短时间内以相对低的成本得到癌症患者的基因组、转录组、表观基因组和蛋白质组等多组学数据,这些丰富的数据为科学研究人员在全基因组水平上研究癌症的机理打下了坚实的基础,集成研究这些数据已经成为必然趋势。然而,多组学数据具有维度高、样本数低、噪声大的普遍特征,使用传统的数据挖掘方法具有巨大的挑战。探究每一类癌症亚型相关的癌症通路、分子标记物,这些都是癌症研究的重要问题,每一次的重大发现对癌症病人都将具有重大意义。
传统的数据集成的癌症亚型分类方法,大多忽略了数据属性之间的关系,缺乏对属性重要性评价的良好方法。本文提出一种基于网络约束的数据集成癌症亚型分类方法。通过结合基因相互作用网络的拓扑结构和基因组、转录组和表观基因组样本属性信息,为网络结构性强和属性差异性大的网络节点给予大的权重,得到网络节点重要性。根据网络节点重要性约束后续聚类过程,进而提高癌症亚型分类准确性。
本文提出的方法将应用于TCGA数据库中浸润性乳腺癌、结肠腺癌、头颈鳞状细胞癌、肾透明细胞癌、肺腺癌和肺鳞状上皮细胞癌六种癌症,通过集成基因组学拷贝数变异、转录组学基因表达和表观基因组学DNA甲基化数据,结合STRING数据库中的人类蛋白质相互作用网络,对六种癌症进行亚型分类与分析。通过KM生存曲线、CoxLog-ranktest的P-value等指标评价癌症亚型分类结果,并对不同亚型的基因做差异性分析,显示出较好的临床显著性。通过标准互信息、兰德系数、调整兰德系数等聚类准确性指标评价在带有金标的数据集上癌症亚型分类结果。与传统聚类方法k-means、谱聚类以及基于数据集成的癌症亚型分类SNF方法、PFA方法在临床显著性和准确率方面进行比较,在多个癌症数据上具有最佳的临床显著性且具有较高的准确性。本文从临床显著性和分类准确性两个角度证明这是一个良好的数据集成癌症亚型分类方法。
传统的数据集成的癌症亚型分类方法,大多忽略了数据属性之间的关系,缺乏对属性重要性评价的良好方法。本文提出一种基于网络约束的数据集成癌症亚型分类方法。通过结合基因相互作用网络的拓扑结构和基因组、转录组和表观基因组样本属性信息,为网络结构性强和属性差异性大的网络节点给予大的权重,得到网络节点重要性。根据网络节点重要性约束后续聚类过程,进而提高癌症亚型分类准确性。
本文提出的方法将应用于TCGA数据库中浸润性乳腺癌、结肠腺癌、头颈鳞状细胞癌、肾透明细胞癌、肺腺癌和肺鳞状上皮细胞癌六种癌症,通过集成基因组学拷贝数变异、转录组学基因表达和表观基因组学DNA甲基化数据,结合STRING数据库中的人类蛋白质相互作用网络,对六种癌症进行亚型分类与分析。通过KM生存曲线、CoxLog-ranktest的P-value等指标评价癌症亚型分类结果,并对不同亚型的基因做差异性分析,显示出较好的临床显著性。通过标准互信息、兰德系数、调整兰德系数等聚类准确性指标评价在带有金标的数据集上癌症亚型分类结果。与传统聚类方法k-means、谱聚类以及基于数据集成的癌症亚型分类SNF方法、PFA方法在临床显著性和准确率方面进行比较,在多个癌症数据上具有最佳的临床显著性且具有较高的准确性。本文从临床显著性和分类准确性两个角度证明这是一个良好的数据集成癌症亚型分类方法。