论文部分内容阅读
Helitron转座子是一种具有滚环复制(Rolling cycle replication)特征的DNA转座元件,2001年首次在拟南芥、水稻和线虫中被定义和报道,随后发现其广泛存在于真核生物中,在物种演化中有着重要的作用。十字花科(Brassicaceae)是植物界一个较大的科,其中许多重要物种已完成了全基因组测序与组装,包括年轻物种甘蓝型油菜(Brassica napus),它们是生物信息学、比较基因组学研究的理想材料。本研究全新开发了快速预测Helitron的工具,对Helitron转座子在十字花科基因组上的分布进行了分析了,并对Helitron在物种演化中的作用进行了探索。主要结果如下:1.开发EAHelitron软件,实现Helitron快速有效预测与定位本研究使用Perl语言开发了一个易于使用的Unix-like命令行程序EAHelitron(Easy to Annotate Helitrons)。该程序利用Perl正则引擎和其动态内嵌函数特性,通过对典型Helitron的特征结构进行搜索,实现对Helitron的快速预测与定位。在对拟南芥基因组的测试中,与传统搜索程序相比EAHelitron具有运行快速(最高可加速99倍),假阳性率较低(5.9%)的特点。同时,EAHelitron具有发现新Helitron转座子的能力:在拟南芥中通过EAHelitron预测有665个Helitron,其中的499个(75.0%)可被其他软件支持,166个为首次预测发现。通过对18个拟南芥生态型间的基因组序列多态性比较研究,发现新预测的Helitron中有41个在生态型间存在插入位置多态性,可能代表了拟南芥基因组内的Helitron转座事件,并证明EAHelitron具有寻找真实的新Helitron的能力。2.Helitron在基因组上的偏向性分布,隐含物种的演化过程应用EAHelitron于十字花科13个物种的16个基因组中,预测获得49,213个Helitron。卡方检验表明Helitron的插入位置并非随机,约93%的Helitron插入于基因间隔区。在拼装至染色体的9个十字花科基因组中,发现Helitron偏向集中在着丝粒附近。滑动窗口分析显示,在大部分十字花科基因组中,Helitron密度与基因密度呈负相关。在Helitron插入基因的功能富集分析中,发现一些插入基因中的Helitron未被选择清除,这可能与人工选择相关。3.不同拟南芥生态型的Helitron多态性可用于关联分析对分布在世界各地的18种拟南芥生态型的Helitron分布进行比较,发现各生态型间Helitron分布基本相同,但其中仍有508个Helitron的插入位置表现出多态性。通过对Helitron多态性数据的聚类分析,将18个生态型大致划分为与实际地理分布相关的3个亚群:欧洲西部、欧洲中南部以及欧洲中东部。将18个生态型的Helitron多态性数据与开花期表型进行Apriori关联分析,得到13个可能与开花期关联的位点,其中2个与已知开花相关基因连锁,表明Helitron多态性具有作为关联分析中分子标记的潜力。4.Helitron密度可作为用于鉴定物种的基因组特征在已经测序的53个植物基因组中,使用EAHelitron预测获得104,653个Helitron。将每兆核苷酸的Helitron数目定义为全基因组Helitron密度(whole genome Helitron density),对同一物种的不同基因组的Helitron数据统计后发现,物种内的Helitron密度有一定的稳定性。相关性分析发现,Helitron密度与基因组大小相互独立,表明Helitron密度可作为一种鉴定物种的参考指标。模拟实验分析表明,可利用线性判别分析将Helitron密度用于鉴定植物物种。5.Helitron插入影响甘蓝型油菜品种Darmor与中双11间的基因表达差异对比甘蓝型油菜欧洲品种Darmor与中国品种中双11的基因组,约1,850个直系同源基因间的启动子区存在Helitron插入的差异。根据叶片与根的转录组测序数据的结果,对启动子区有Helitron插入的基因进行统计,发现启动子序列差异基因中的50.4%同时为转录差异表达基因,显著高于全基因组中差异表达基因所占比例(41.6%),表明Helitron转座子引起的启动子差异是影响基因表达差异的原因之一。6.Helitron插入未影响被插入基因的演化速率,但降低相关基因的表达对312个被Helitron插入基因区的基因进行多重均值比较和卡方检验,结果显示:在甘蓝型油菜Darmor中,Helitron插入并未显著影响被插入基因的Ka、Ks、Ka/Ks值以及正向选择基因的比例,说明Helitron插入与点突变在油菜物种演化过程中可能相互独立。相比所有基因的平均值,Helitron插入基因的长度更长(1,237 bp>1,001bp),外显子更多(6.5>4.9),并且Helitron插入可能导致基因表达的降低。上述成果和研究结论,从工具研发、数据挖掘、基因表达和演化等方面,应用生物信息学方法,解析Helitron转座子的分布特征及其在甘蓝型油菜的演化上可能的影响,对于加速和加深植物基因组中转座子以及演化方面的研究具有一定的实际意义。