论文部分内容阅读
癌症治疗一直都是世界性难题。近年来,合成致死(Synthetic lethality)已经成为一种抗癌药物研发的新思路,针对两个存在相互作用的基因进行靶向治疗,可有效克服耐药性问题。目前,合成致死疗法所面临的关键问题是在特定癌症类型中获得一批可靠的具合成致死效应的基因,为基于合成致死策略寻找关键基因的可能治疗靶点提供数据参考。由于实验验证成本较高、耗时长且难以大批量开展,利用生物信息学手段预测可靠的合成致死基因组合已成为了一种重要方法。因此,本文基于已知合成致死基因组合的相关分子特征,通过机器学习算法预测了不同癌症中的合成致死基因组合,并针对相关数据进行了分析,同时构建了数据库。首先,基于TCGA数据库(The Cancer Genome Atlas)中33种癌症的测序数据,从基因突变、m RNA表达、甲基化及拷贝数变异(Copy number variation,CNV)四个分子水平展开分析,提取特征并利用决策树模型进行合成致死基因组合的预测;然后,基于预测结果进行分析,以了解具合成致死效应基因的可能生物学功能及在癌症预后中的价值等;最后,为了共享合成致死基因组合的预测结果,本文搭建了基于web的在线数据库,为合成致死相关研究提供数据参考平台。论文的研究内容主要包含三个部分:(1)基于多组学数据利用决策树模型预测合成致死基因组合:(1)分析33种癌症的基因突变、m RNA表达、甲基化及拷贝数变异数据集,对多组学数据集成分析结果进行量化,并通过计算得到各分子层面的特征参数。(2)收集来自公共数据库及已公开算法中预测的合成致死基因组合数据作为候选数据集,经实验验证过的具合成致死关系以及不存在合成致死关系的基因组合作为训练集。(3)将(2)中的数据进行特征参数评分,得到在每种癌症中的特异性评分并作为模型特征参数。(4)基于验证过的基因组合,将基因突变、m RNA表达和CNV的数据关联分析并进行量化处理,得到筛选指标。(5)使用决策树模型预测合成致死基因组合,并进一步基于量化的基因突变、m RNA表达和CNV的生物学联系指标筛选得到最终预测结果。(6)使用错误率、查准率与查全率评估模型准确性,并与其他预测算法的结果进行对比。(2)基于合成致死基因组合的预后及功能分析:针对决策树模型预测到的合成致死基因组合,围绕预后及功能进行了进一步分析。首先,对预测结果进行了统计,筛选至少在10种癌症中共享的合成致死基因组合构建基因相互作用网络,开展生存分析以了解在癌症预后中的价值,预测相关基因与抗癌药物的关系,并利用功能富集分析以了解其生物学功能。然后,以当前合成致死研究较多的乳腺癌(BRCA)为例,筛选具合成致死效应的基因并从多角度探讨相关基因在乳腺癌发生发展中的可能作用。(3)癌症合成致死数据库系统的构建:针对合成致死基因预测结果,本文使用django框架搭建基于web的合成致死在线分析数据库(SLOAD,http://tmliang.cn/SL),除了合成致死基因组合的预测结果,数据库也提供了可视化分析功能,主要包括基因突变占样本的百分比、m RNA表达分布、甲基化Bate-Value值分布和CNV值分布,以及基于基因突变和m RNA表达的生存分析等,为开展合成致死的相关研究人员提供了数据参考平台。