论文部分内容阅读
原发不明肿瘤(CUP)是一种组织学确诊为转移性癌,组织来源未知的恶性肿瘤,在癌症致死原因中是第四大原因。原发性肿瘤未知的转移性癌症的治疗是基于经验化疗法,病人不仅要承受治疗的痛苦以及承担巨大经济压力,而且结果通常不会如预期的好。所以如果能确定原发组织,那么对于医生来说就更容易对症下药从而提高治疗的效果,也能让患者更快痊愈。准确找到肿瘤的原发部位实际上就是明确CUP的肿瘤亚型以及组织来源,有助于临床医生拟定针对性的诊疗计划,提高病人存活率及生存质量。因此,切确推断CUP的组织来源对于临床是非常有帮助的也是非常有意义。长期的研究发现,原发不明肿瘤的基因表达和现在所在部位的基因表达谱是不一样的,但是和它原发部位的基因表达谱是极其相似,所以,在癌症肿瘤的发生、发展以及转移的过程中,肿瘤组织会始终保留其原本的基因表达特征。基于此原理,发现一些分子标志物并将此用以辨别肿瘤的组织起源。本文基于梯度提升树来溯源20种实体肿瘤的起源组织。具体的工作如下,首先是数据下载,从癌症基因组图谱(TCGA)下载了7633个RNA-Seq数据样本其中包括了20,501个基因的表达谱以及10673个体细胞突变数据样本包括了1000个基因表达谱,并将其用作训练数据集。两种数据分别选择400个基因和200个基因去训练梯度增强模型,用于肿瘤原发部位的识别。对20种癌症的总体10折交叉验证准确率RNA-Seq数据为96.1%,体细胞突变数据为52.4%。经过比较后发现,基于RNA-Seq数据的肿瘤溯源结果更好,所以还从Gene Expression Omnibus(GEO)下载了来自6种已知来源的79个肿瘤样本的RNA-Seq数据,作为一个独立的数据集进行溯源,准确率达到83.5%。除了用独立测试集去验证基于RNA-Seq数据的模型,还对挑选出的400个基因进行了富集分析,对结果也作了更进一步分析,来全方位评价这个模型。所以基于RNA-Seq数据的梯度提升树在识别肿瘤组织来源方面具有较高的准确性,具有一定的实用价值。