论文部分内容阅读
目的:癌症是死亡率极高的人类重大复杂性疾病,近年来,癌症的发病率逐年增高。目前治疗癌症的大多数药物是针对特定群体而开发,但特定群体内的个体对同一种药物的敏感性也有差异。精准医疗倡导癌症治疗可遵循异病同治和同病异治,异病同治将原来治疗其他癌种或疾病的药物用于治疗新的癌症,例如药物重新利用或老药新用。与传统的药物开发方法相比,药物重新利用兼具时间短、成本低、成功率高等优点。目前已有多项成功案例将其他疾病药物用于治疗或缓解癌症。因此,将非肿瘤药物重用到癌症的治疗具有重大科学和临床意义。多项研究表明,选择具有直接遗传疾病关联证据的基因作为药物靶标能够显著提高药物开发成功率。目前已有基于遗传学数据做药物重新利用的计算方法,但这些方法多数是基于单个基因针对群体进行重新利用药物的推荐,并且没有考虑药物的作用机制。本研究的目的是开发一种根据药物的靶标信息及癌症的突变信息,基于基因和分子网络两层面,预测个体水平药物重用的计算方法。本工作根据肿瘤病人突变信息计算潜在重用药物的可能性,对药物重用的临床试验选择入组人群提供依据,为个体化肿瘤治疗提供候选药物,具有较高的转化前景。方法与材料:我们从The Drug–gene Interaction Database(DGIdb)和Drug Repurposing Hub数据库收集药物靶点信息,从DrugBank等其他药物相关数据库收集药物适应症信息。同时从International Cancer Genome Consortium(ICGC)获取51种癌症的各类突变信息,包括单核苷酸突变(single-nucleotide variants,SNVs)、短插入和缺失(Indels)、拷贝数变异(copy-number variations,CNVs)、其他结构性突变包括缺失、易位、重复和倒置。我们随后结合Combined Annotation Dependent Depletion(CADD)分数预测和筛选致病性突变,并将致病突变在不同水平上映射到靶基因。我们整合Catalogue Of Somatic Mutation In Cancer(COSMIC)、Precision Oncology Knowledge Base(OncoKB)中已报道的癌症驱动基因,和利用OncodriveROLE预测的癌症驱动基因,构建全面的癌症相关基因集合。我们通过两种策略建立癌症和药物关联:当癌症基因和药物靶点是同一基因时,药物可以和癌症直接联系,得到药物-癌症组合;当癌症基因和药物靶点不是相同基因时,我们利用随机游走算法寻找药物靶点和癌症基因在Reactome Pathway网络中的邻近性,从而得到药物-癌症组合。基于以上两种方式得到的药物-癌症匹配信息,我们提取和编译个体水平的输入特征,在已知药物-癌症集合上训练逻辑回归模型,以预测药物-癌症组合中药物重新利用的可能性;利用交叉验证、病人药物敏感性数据和基于表达谱的药物敏感性预测分数,我们全面地评估了预测模型;同时应用该模型验证临床可行性突变。结果:共得到了5,948个有临床适应症的药物;将ICGC中的癌症样本映射到22种组织中的51种癌症类型;预测得到致病性SNVs/Indels,CNVs,缺失,重复,倒置和易位;共整合了2,270个癌症相关基因。利用基于基因和基于网络的药物靶点和癌症基因的联系,我们共得到256,889药物-癌症组合。我们用CIViC中临床意义为“敏感或响应”的药物-癌症组合作为正样本,repoDB中在临床实验中被终止或者撤回的药物-癌症组合作为负样本构建了预测药物重新利用的逻辑回归模型,利用交叉验证得出模型的接收者操作特征曲线下面积(Area Under Curve,AUC)为0.794。药物重新利用预测值大部分分布在0-0.75;共有416个预测值趋近1,对应的药物-癌症组合被认为是潜在药物重新利用。我们用与训练集独立的已报道药物敏感的药物-癌症组合作为正样本,在具有关联性的药物-癌症组合中,除去模型的训练集数据和本验证中的正样本,然后随机抽取药物-癌症组合作为负样本对我们的预测结果进行验证,其AUC为0.838。我们用The Cancer Genome Atlas(TCGA)中病人与药物敏感性数据对我们的预测结果进行验证,把药物敏感性为完全响应的药物-病人组合作为正样本;把药物敏感性为病情稳定和进行性疾病的药物-病人组合作为负样本,其AUC为0.614,本研究与用病人的表达数据预测药物敏感性的结果一致。以上评估表明本研究具有较好的预测准确性和临床应用价值。