论文部分内容阅读
研究背景和目的肝细胞癌(HCC,以下简称肝癌)严重威胁人类的健康,大部分肝癌发生在肝硬化背景下,然而肝硬化诱导肝癌的机制却并不清楚。研究表明肝硬化异常的表观遗传改变为肝癌的发生发展提供了有利的环境,而增强子是表观遗传调控的重要组成部分,但其在HCC发生、发展中的作用尚不清楚。当增强子区域同时富集组蛋白修饰H3K27ac和H3K4me1时,表明该增强子处于激活状态,这种状态下的增强子称为活化增强子(active enhancer)。相对一般增强子而言,活化增强子可强烈通过促进靶基因的表达,在细胞发育和许多疾病的进展中起着重要作用。前期研究发现,活化增强子在肝硬化和肝癌时期大量形成,但在肝硬化发展为肝癌和对肝癌发展的作用、意义和具体机制还不清楚。因此,本研究利用生物信息学分析方法,使用肝硬化和HCC的转录组学、基因组学、表观组学、药物转录组学等多组学数据,构建肝硬化时期获得并在肝癌时期持续作用的活化增强子谱(简称CL-HCC活化增强子)并探寻这些活化增强子对肝硬化诱发肝癌的作用机制,对肝癌患者的持续影响以及在肝癌的诊断、预后和治疗上的潜在作用价值。方法与结果1.CL-HCC活化增强子谱的建立及其对肝癌发生的潜在机制和分子分型1.1 CL-HCC活化增强子谱的建立及其主要特征为了研究CL-HCC活化增强子的作用,我们首先根据GSE112221数据集中正常肝组织、肝硬化及肝癌时期的组蛋白修饰H3K27ac和H3K4me1的Chip-seq数据,筛选在肝硬化时期和肝癌时期均富集组蛋白修饰H3K27ac和H3K4me1而在正常肝组织未富集这两组修饰的活化增强子作为潜在的CL-HCC活化增强子。然后根据这些潜在的CL-HCC活化增强子关联的基因在正常肝组织、肝硬化和肝癌组织中的表达差异,建立了在肝硬化时期获得并在肝癌时期持续作用的620个活化增强子谱及其关联的483个靶基因。富集分析发现活化增强子关联的靶基因主要参与肿瘤相关的通路和免疫相关的通路。由于GSE112221数据集中正常肝组织、肝硬化组织和肝癌组织的组蛋白修饰数据是Bulk Chip-seq,里面通常包括肝癌细胞和微环境中的其他细胞。因此我们通过对比肝癌细胞系Hep G2细胞的活化增强子,以区分CL-HCC活化增强子对肝癌细胞和其他细胞的影响。发现CL-HCC活化增强子可划分为肝癌细胞相关的CL-HCC活化增强子和肿瘤微环境相关的CL-HCC活化增强子。通过对肝癌细胞相关的CL-HCC活化增强子进行富集分析(包括GO、KEGG、疾病特征和肿瘤特征)发现肝癌细胞相关的CL-HCC活化增强子可以通过激活肿瘤特征相关通路促进肝细胞癌化。随后通过对GSE112221和GSE54238数据集中的样本使用基于mark gene的MCPcounter和基于反卷积算法的EPIC估算其免疫细胞浸润状态并分析免疫细胞浸润状态与肿瘤微环境相关的CL-HCC活化增强子靶基因表达的相关性,发现肿瘤微环境相关的CL-HCC活化增强子靶基因表达与肿瘤微环境中的CD8+T细胞浸润和功能耗竭正相关。1.2基于CL-HCC活化增强子谱的分子分型及其对HCC精准治疗的潜在价值分析根据CL-HCC活化增强子靶基因在TCGA肝癌患者的表达情况结合非负矩阵分解,将TCGA肝癌患者分为三个不同的分子亚型(MS1,MS2和MS3)。MS1活化增强子靶基因的表达水平最高,MS3次之,MS2最低。生存分析发现分子亚型间存在预后差异,MS2预后比MS1和MS3更好。通过对CNV和突变谱分析发现各分子亚型间的基因组景观不同。通过GSVA计算KEGG通路、缺氧状态和T细胞功能障碍,结合MCPcounter计算患者的免疫细胞浸润发现各分子亚型在代谢和肿瘤微环境中存在差异。使用TIDE根据表达谱预测患者的免疫治疗响应并使用p RRophetic根据GDSC计算化疗药物和靶向药物的敏感性发现分子亚型在免疫治疗响应性和化疗/分子靶向药物敏感性存在差异,MS2免疫治疗响应最高,而MS3对化疗药物的敏感性更好。2.基于CL-HCC活化增强子靶基因表达的肝癌诊断和预后模型建立2.1基于CL-HCC活化增强子靶基因表达的肝癌诊断模型建立将TCGA-LIHC分为训练组和测试组,在训练组中结合逻辑回归、随机森林和支持向量机3种机器学习算法建立诊断模型,并根据各算法建立的模型的AUC值筛选出最优的诊断模型,即根据逻辑回归算法构建的5基因(THBS4、OLFML2B、CDKN3、GABRE和HDAC11)的诊断模型。将该模型在测试组、外部独立肝癌数据以及TCGA泛肿瘤数据中测试,发现该模型在测试组和外部独立肝癌数据区分肝癌与非肝癌患者的准确度均在0.9以上,对15种TCGA的肿瘤数据集区分肿瘤与非肿瘤的准确度在0.7以上。2.2基于CL-HCC活化增强子靶基因表达的肝癌预后模型建立对CL-HCC活化增强子靶基因进行单因素Cox回归,发现大部分(47.6%)CL-HCC活化增强子靶基因都可以作为肝癌的独立预后因子,且基本为肝癌预后的风险因素。对这些可作为独立预后的基因使用LASSO回归十折交叉验证降维筛选,得到19个最优的预后基因。将TCGA-LIHC分为训练组和测试组后,根据这些最优的预后基因使用逐步回归多因素COX分析在TCGA-LIHC训练组中建立了4基因预后模型,该模型公式为风险分数(risk score)=C5orf30表达量*(-0.12684)+KITLG表达量*0.20732+SPP1表达量*0.08163+UBE2S表达量*0.52305,根据TCGA-LIHC训练组的风险分数的中位数作为风险模型高低风险的分界点,将患者分为高低风险组。随后,在TCGA-LIHC测试组,所有TCGA-LIHC患者和ICGC LIRI-JP数据集中进行验证,根据该模型划分的高、低风险组的生存都有显著差异(TCGA-LIHC测试组OS p=0.0009,所有TCGA-LIHC患者OS p<0.0001和ICGC LIRI-JP OS p<0.0001)。通过时间依赖的ROC曲线和C-index,与近期发表的其他模型比较,该模型在不同数据集都有较好的预测能力和稳定性。通过GSEA分析高、低风险组的基因表达差异,发现高风险患者的CL-HCC活化增强子靶基因的表达高于低风险组,且高风险组患者的肿瘤相关通路和炎症通路比低风险组激活,对比高、低风险组基因组景观,发现除TP53外高低风险组基因突变频率基本没有差别。通过单因素和多因素COX分析,发现该模型可以作为独立的预后因素。最后将该模型结合TNM分期构建列线图,校准曲线显示列线图在两个数据中1年和3年预测值与观察组几乎一样,DCA分析显示列线图在两个数据中列线图的净获益率均高于TNM分期。3.以CL-HCC活化增强子靶基因为潜在靶点的药物预测CMap数据库收录了不同药物或小分子化合物处理靶细胞后的基因表达数据,我们通过CMap数据库结合GSEA算法预测出15种可能降低CL-HCC活化增强子靶基因表达的药物。随后通过PPI网络分析,发现二甲双胍的靶点INS与多种参与肿瘤通路的CL-HCC活化增强子靶基因有相互作用。通过对二甲双胍干预CCl4诱导的肝硬化背景转基因小鼠的转录数据(GSE131175)分析,发现二甲双胍干预CCl4诱导的肝硬化背景转基因小鼠后,CL-HCC活化增强子调控的靶基因表达显著下降。通过GSEA分析BET抑制剂家族JQ1处理Hep G2细胞的表达谱数据(GSE51143),发现JQ1可以显著抑制Hep G2细胞中的肝癌细胞相关的CL-HCC活化增强子的表达。使用CTRP和PRISM两种小分子化合物数据库结合p RRophetic计算TCGA数据库肝癌患者(TCGA-LIHC)和ICGC数据库肝癌患者(ICGC LIRI-JP)的药物敏感性,发现有5种来自CTRP和4种来自PRISM的化合物在4基因预后模型划分的高风险组患者中的敏感性显著高于低风险组,且敏感性和风险分数正相关,结合CMap数据库和文献调研,发现高风险组患者对氯法拉滨和BI-2536更加敏感,这两个药物可能是针对高风险患者的有效药物。结论和意义1.本研究首次鉴定了CL-HCC活化增强子,并发现CL-HCC活化增强子与其靶基因异常表达的密切相关。CL-HCC活化增强子可能通过同时影响对肝细胞和肝脏微环境其他细胞(如CD8+T细胞),促进肝硬化向肝癌发展。2.根据CL-HCC活化增强子相关靶基因的差异表达水平可将HCC患者区分为不同分子亚型,这些分子亚型之间在CL-HCC活化增强子靶基因表达水平、预后、基因组景观、肿瘤微环境、免疫治疗响应性和化疗/分子靶向药物敏感性等存在巨大差异,表明CL-HCC活化增强子靶基因表达可以作为肝癌分子分型的标志物,为探寻肝癌异质性和精准治疗提供新策略。3.CL-HCC活化增强子的5个相关靶基因(THBS4、OLFML2B、CDKN3、GABRE和HDAC11)诊断模型具有诊断肝癌的潜力,有望发展成为新的肝癌诊断生物学标志物。4.基于CL-HCC活化增强子的4个相关靶基因(C5orf30,KITLG,SPP1和UBE2S)预后模型可有效预测肝癌患者的预后,并且与其他肝癌预后模型相比更准确和稳定。该模型结合TNM分期构建的列线图预测预后与实际预后基本一致,该列线图对临床决策有重要意义和应用前景。5.二甲双胍和JQ1都能够抑制CL-HCC活化增强子靶基因的表达,可能是二甲双胍和JQ1抗肿瘤的潜在机制,为以CL-HCC活化增强子及其靶基因为潜在治疗靶点开发药物提供了理论支撑。6.氯法拉滨和BI-2536可能是针对4基因预后模型划分的高风险患者的有效药物,为高风险患者的精准治疗提供新的思路。总的来说这项研究通过CL-HCC活化增强子为深入认识肝癌的发生发展提供了新的视角。基于CL-HCC活化增强子及其靶基因表达模式的分析在肝癌的诊断、预后预测、精准治疗和药物开发中具有重要的潜在价值。