论文部分内容阅读
基因表达是将基因中蕴含的遗传信息通过转录、剪接、翻译等转变成功能产物的所有加工过程,是生物生命活动的基础和关键。基因的表达过程是一个复杂的过程,其中基因的转录是基因表达的关键步骤,起到基础性、决定性的作用。转录因子通过和顺式调控元件(CRE)结合,启动功能基因转录或调控功能基因的转录速率,从而调控功能基因的表达量,进而调控生命活动的进展。确定了转录因子和CRE的结合关系,也就基本确定了转录因子对启动区包含CRE的功能基因的调控关系。研究转录因子和CRE的结合关系,是研究基因调控网络的重要一环。本文以雷蒙德氏棉基因组为基础,结合基于棉花基因组的其他实验数据,研究通过生物信息学手段构建棉花基因组的转录调控网络。本研究从基础的CRE全基因组扫描入手,使用PLACE数据提供的CRE数据,对拟南芥和雷蒙德氏棉基因组所有基因上游1KB的序列进行了CRE扫描,并以10bp作为窗口值,分段对各CRE的位置分布进行了统计。结果表明,TATABOX,ACGTG等典型的CRE会在特定的位置形成明显的峰值,这表明,CRE是存在位置效应的。在CRE的扫描过程中,建立了棉花基因组基本信息数据库,完成了同源基因、SSR、转录因子等信息的扫描和整理工作。由于对于CRE的研究只能从宏观上反应CRE的分布情况,不能够精确的确定转录因子和被调控基因的关系,因此需要结合更多的实验数据,来逐步建立转录因子的调控网络。RNA-Seq技术已经在棉花中有较成熟的应用,并且积累了一定的实验数据。本文基于大数据的研究思想,通过收集,整理,定位棉花基因上的RNA-Seq数据,在每个样本上计算所有基因的RPKM,这样每个基因在所有样本中的RPKM值就形成一个表达量序列。计算两两基因的表达量序列的皮尔逊相关系数,来描述基因之间的表达相关关系。如果两个基因的表达量序列显著相关,那么认为两个基因的表达密切相关。在纤维的48个样本和种子的72样本中,分别进行表达相关计算,并提取显著相关的记录构建表达相关网络,通过控制记录的数量,表达相关基因分割为多个子网络,并对每个子网络的基因进行功能富集。我们发现,子网络中的基因在功能上显著富集,并且和组织特异的生物功能相吻合。这说明在表达上密切相关的基因在功能上同样密切相关。基于转录因子对目标基因调控的原理,在转录因子表达量上升后,其目标基因的表达量会有明显的上升和下调。因此,转录因子和其调控的目标基因在表达序列上可能存在相关。基于这一假设,本文对雷蒙德氏棉中转录因子按照家族分别对其表达高度相关的基因进行功能富集,并对其中三个富集功能清晰的转录因子家族(MYB,NAC和bHLH)进行了分析。我们发现NAC转录因子表达相关基因显著富集在纤维相关的生物途径上,其他两个转录因子家族的表达相关的基因也和文献描述的转录因子调控的生物途径相吻合。这说明转录因子与其在表达量上显著相关的基因可能存在潜在的调控关系。本研究首次在RNA-Seq数据集上使用表达相关系数的方法来反映基因之间的表达相关关系,并且证明了基因表达关系能够反映基因之间的功能相关,并能部分反映转录因子对目标基因的调控关系,为通过生物信息学研究棉花基因组中基因之间功能关系以及调控网络提供了崭新的思路。