论文部分内容阅读
真核细胞中,基因表达精准的时间和空间调控对于不同生物学进程尤为关键。其中,众多的DNA反应活动受到不同顺式调控元件的协同调控,如转录启动子、增强子和绝缘子等。由于染色质折叠,空间染色质结构使得增强子能够在三维空间中作用于距离自身数十甚至上百Kb碱基的靶启动子并调控相关基因的表达。增强子-启动子相互作用在组织特异性基因表达调控中起关键作用并可能导致人类相关疾病的发生。近年来,大量高通量染色体构象捕获技术的发展使人们深入研究这些相互作用成为可能,比如:染色体构象捕获(3C),4C(circular3C),5C(3C-carboncopy),Hi-C(3C variant)和 ChIA-PET。与此同时,随着各种高通量测序技术的发展,各个实验平台产生了大量基因组信号的深测序文件,这些组学数据使人们在不同的基因组范围内研究远程相互作用和不同类基因组信号之间的调控关系成为可能。本文开发了新的计算方法并用来识别人类四个细胞系GM12878,H1-hESC,HeLa-S3和K562中远程增强子-启动子相互作用。我们不仅发现了许多潜在的影响远程互作用识别的重要基因组信号,还分析了它们的位置,分布,关联等属性。最后,我们通过多种模型研究了组蛋白修饰,转录因子,增强子RNA,DNA甲基化等多种基因组信号与远端增强子靶基因的表达调控关系,并在远端增强子调控靶基因的机制中发现了组蛋白修饰,转录因子等不同类基因组信号对应不同的调控特点。论文主要的研究内容概括如下:一、基于前人构建的5C技术数据库,我们从不同类别的信号中提取增强子,启动子,loop区域的对应特征,比如转录因子,组蛋白修饰,DNA甲基化,增强子RNA,核小体位置,染色质状态,拓扑关联域等等。然后组合上述特征,提出BRCFS特征选择方法和随机森林分类器在人类四个细胞系中预测远程增强子-启动子相互作用。和Roy等的结果比较,我们的10折交叉检验AUPR精度提高了 11%-16%,独立检验的AUPR精度提高了 4%-8%。通过分析识别中的特征重要性,我们发现了很多潜在特征的重要作用,比如:增强子RNA,核小体位置等。并且我们发现loop区域的特征对远程互作用的识别起着很大的作用;另外,不同类信号对于远程互作用的识别具有调控区域特异性和细胞系特异性。最后我们发现这些重要的特征在正负集样本中有很大的分布差异。二、考虑到远程增强子-启动子相互作用受到不同基因组信号,序列元件以及DNA空间结构等多方面协同作用;我们整合转录因子,组蛋白修饰,DNA甲基化,增强子RNA,核小体位置,DNA结构属性,转录因子结合模体等信号特征,开发了一种更加高效的方法去预测增强子-启动子相互作用。基于增强子,启动子,loop区域的组合特征,我们使用随机森林和梯度提升算法在人类细胞系中对增强子-启动子相互作用进行了有效的预测。基于同样的数据库,与Roy等的结果比较,我们在同一个细胞系中10折交叉检验结果提高了15%-24%;在新的细胞系中独立检验的结果提高了 9%-14%。期间,我们综合学习了不同类型重要特征的贡献特点,并进一步发现了 DNA结构属性,转录因子结合模体对于远程相互作用识别的重要贡献。我们对重要的基因组信号特征做了偏相关网络模型分析,并发现了它们之间重要的关联属性。三、在人类四个细胞系中,我们使用多种回归模型研究了增强子靶基因表达水平与不同基因组信号的关系,这些信号包括11种组蛋白修饰,大于120种转录因子,染色质可及性,增强子RNA,DNA甲基化和核小体位置。通过结果分析,我们发现基因表达的预测值和观测值之间有很强的关联性。然而,有增强子调控的基因样本集的关联系数比无调控的基因样本集要高很多,说明远程增强子会协同多类基因组信号促进相关基因的表达。四、通过分析不同信号对远端增强子靶基因表达水平的贡献能力,我们发现远端增强子调控的基因中,转录因子在增强子和启动子区域对基因表达水平具有较强的影响;而组蛋白修饰在启动子和loop调控区域对基因表达水平具有较强的影响。对比同一个细胞系正负数据集中不同信号特征的重要性分值变化,我们发现很多组蛋白修饰和部分特异性的转录因子发生了很大的变化,说明这些特征协同远程增强子促进基因表达。