论文部分内容阅读
从基因表达水平的角度对癌症样本进行分类,与传统的组织病理学分类癌症样本相比,其较高的临床预测能力已经获得越来越广泛的关注。根据癌症样本的基因表达谱发现某些基因的集合(称为基因集)可以显著区分不同癌症样本的基因表达谱并与癌症病人的临床结果有关。但是,目前尚未有一种灵活的,完整的且容易使用的工具帮助生物学家找到能够分类癌症样本的基因集。本文构建一个R包:CAsubtype,能够有效的找出分类癌症样本且能区分不同癌症病人临床生存结果的基因集。首先,CAsubtype从多达13000个基因集中选择能够分类癌症样本的基因集,并从TCGA数据库中下载10种癌症共计2000多个癌症样本,包括癌症样本的基因表达谱和临床生存结果。CAsubtype根据基因集(用户自己提供或从CAsubtype包中下载)对癌症样本进行主成分分析,选择前几个主成分方差百分比较高,统计学上显著且能最大程度的解释癌症样本的不同的基因集。根据选择的基因集,通过K-均值或结构层次聚类分析聚类癌症样本,并在2维或三维坐标下观察癌症样本的分布。最终,比较聚类成不同亚型的癌症病人的临床生存结果。对选出的生存结果显著的基因集,其分类成不同亚型的癌症病人可能在临床医学诊断中具有重要意义。综上所述,CAsubtype是一个灵活且完整的R包,通过提供简单的R程序操作和完整的数据,即可以帮助生物学家有效的检测给定基因集分类癌症样本的能力,同时也可以找出能显著分类癌症样本并区分不同病人临床生存结果的基因集,使得生物学家可以进一步从生物学和临床医学的角度检验基因集的功能。