一个找出分类癌症样本并和临床 生存结果有关的基因集的R软件包

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:taotaolovely
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从基因表达水平的角度对癌症样本进行分类,与传统的组织病理学分类癌症样本相比,其较高的临床预测能力已经获得越来越广泛的关注。根据癌症样本的基因表达谱发现某些基因的集合(称为基因集)可以显著区分不同癌症样本的基因表达谱并与癌症病人的临床结果有关。但是,目前尚未有一种灵活的,完整的且容易使用的工具帮助生物学家找到能够分类癌症样本的基因集。本文构建一个R包:CAsubtype,能够有效的找出分类癌症样本且能区分不同癌症病人临床生存结果的基因集。首先,CAsubtype从多达13000个基因集中选择能够分类癌症样本的基因集,并从TCGA数据库中下载10种癌症共计2000多个癌症样本,包括癌症样本的基因表达谱和临床生存结果。CAsubtype根据基因集(用户自己提供或从CAsubtype包中下载)对癌症样本进行主成分分析,选择前几个主成分方差百分比较高,统计学上显著且能最大程度的解释癌症样本的不同的基因集。根据选择的基因集,通过K-均值或结构层次聚类分析聚类癌症样本,并在2维或三维坐标下观察癌症样本的分布。最终,比较聚类成不同亚型的癌症病人的临床生存结果。对选出的生存结果显著的基因集,其分类成不同亚型的癌症病人可能在临床医学诊断中具有重要意义。综上所述,CAsubtype是一个灵活且完整的R包,通过提供简单的R程序操作和完整的数据,即可以帮助生物学家有效的检测给定基因集分类癌症样本的能力,同时也可以找出能显著分类癌症样本并区分不同病人临床生存结果的基因集,使得生物学家可以进一步从生物学和临床医学的角度检验基因集的功能。
其他文献
海洋是地球上最大的生态系统,蕴含着丰富的生物基因资源,深海是海洋的主要组成部分,普遍具有黑暗、高压、低温、寡营养等环境特征。由于绝大多数环境微生物无法在实验室中被培养
本研究合成了以均三嗪为核心的具有大π共轭体系的三支树状小分子荧光化合物。通过对普通玻璃片进行烘烤、piranh洗液进行羟基化处理,使其表面亲水性增加,并通过3-氯丙基三乙氧
上期谈到2666点这个重要点位,如果没有管理层的刻意护盘,大盘会有下跌的危险。事实上,上证指数在2666点上下摇摇欲坠,又在江恩二号线之下,但深圳指数却在江恩二号线和周九号线下的矛盾区间,处于关键时刻。市场中有一句名言说:“在战略上要藐视敌人,在战术上要重视敌人。”股市亦同。战略上,机构在运作期指以适应与国际市场接轨的实际需要,对公开的信息不必理会;在战术上必须重视股市规律,如每只股票的上升期需有