论文部分内容阅读
转座子(转座元件)实质上是重复的DNA片段,这些片段散在地分布于基因组中,并且可以通过“剪切-粘贴”或者“复制-粘贴”的方式在基因组中实现“跳跃”,因此也被称为“跳跃基因”。尽管转座子的功能在其被发现后较长的时间里存在较大争议,但是随着越来越多物种的基因组被测序以及转座子相关研究的逐步深入,研究者已经意识到转座子在生物演化中可能具有重要作用。近年的研究表明转座子参与多种生物过程,比如,新基因形成、基因调控、新调控元件的产生、基因组大小的演化、物种分化、环境适应等。因此,转座子在功能基因组学和基因组演化研究中逐渐成为除功能基因以外的新线索。鱼类是较为早期出现的脊椎动物,演化历史悠久。鱼类种类繁多,形态上呈现出巨大的多样性并且存在多种生活史策略。鱼类基因组经历过多次基因组倍增事件,加上数亿年的演化,导致现存鱼类的基因组倍型、大小、组成都呈现高度的差异性。鱼类在现代生物学研究中扮演至关重要的角色,它们可以作为生物学研究的模式生物,如斑马鱼和青鳉。除此之外,鱼类不仅有助于我们追溯脊椎动物的起源,同时为脊椎动物演化几个重大事件的研究,如上下颌的出现、硬骨的产生、水生向陆生的演化等,提供了关键节点的数据。在这些研究中,转座子作为重要的基因组组件,是十分重要的研究对象。但是鱼类的转座子研究基础还比较薄弱,到目前为止大多数鱼类转座子研究仅限于特定基因组重复序列注释,并且大多数注释存在方法单一和分类模糊的缺陷,鱼类基因组中的转座子具体概貌及演化特征仍属空白。因此,鱼类转座子准确注释、比较基因组学分析以及进一步对其在鱼类演化中的作用进行探索将对鱼类乃至整个脊椎动物的研究都具有重要意义。高通量测序技术的发展以及快速下降的测序成本促进了基因组学研究的繁荣,这为转座子研究提供了契机。本研究基于从头预测、结构预测、同源预测三种方法从全基因组层面对所选鱼类基因组中的转座子进行鉴定并构建开放的鱼类转座子数据库;通过系统研究鱼类转座子种间多样性、活动规律、活化时间以探讨转座子自身的演化过程以及转座子在鱼类演化中的作用;最后根据比较学分析中得到的线索进一步探寻转座子在脊椎动物演化过程中的作用。主要的研究结果如下:1.鱼类转座子的鉴定及数据库构建(1)为了准确鉴定基因组中的转座子序列,考虑到不同方法和不同工具的优缺点,最终我们选择多方法联合的策略对29种鱼类和1种文昌鱼基因组中的转座子进行预测。从头预测、结构预测、同源预测的方法都被用于转座子鉴定流程的搭建。通过一系列的过滤假阳性和去冗余,最后使用REPCLASS和TEclass进行分类。最终我们一共获得了33260条一致序列,被划分到近50个超家族中。其中Gypsy、L1、L2、R2、RTE、Rex、Tc-Mariner和hAT超家族在已知分类的结果中占有较大比例。(2)为了能使获得的转座子数据得到更广泛的应用,我们采用LNMP(Linux、Nginx、MySQL、PHP)技术构建了一个用户界面友好的Web数据库,FishTEDB(http://www.fishtedb.org/)。FishTEDB中用户能够浏览、搜索和下载所有转座子数据。除此之外,数据库中还配置了BLAST、GetORF、HMMER三种应用广泛的在线工具以简单快速的实现用户分析需求。FishTEDB的构建将有益于推动鱼类甚至整个脊椎动物中的转座子研究。不仅如此,FishTEDB也将为鱼类基因组注释提供帮助。2.鱼类基因组中转座子的比较学分析(1)通过鱼类转座子数据库的构建,获得了30个物种的转座子序列。为了能进行更为系统的比较基因组学分析,我们使用相同的转座子注释流程对新加入的9个物种(斑马鱼直接使用Repbase中的转座子数据)的基因组进行全局转座子预测。最后使用RepeatMasker对39个物种的基因组进行转座子注释,每个物种都以自身的转座子序列为库。对得到的每一个物种的注释结果进行不同分类层级的统计,包括总体、门类(Class)、类型(Type)、超家族(Superfamily)。结果显示,鱼类基因组中转座子的总含量存在非常大的差异(从青斑河鲀的5%到斑马鱼的57%),其中Class I转座子的占比普遍较大。从不同类型的层面来看,DNA转座子和LINE在鱼类基因组中交替性地占主导地位,而古代鱼类(早期出现的鱼类)基因组中的LINE存在明显优势,这种情况在象鲨的基因组中尤为明显。在超家族层面,Tc-Mariner、hAT、L1、L2和Gypsy超家族广泛分布于鱼类基因组中并且含量较高,是鱼类基因组中最主要的转座子超家族;R2、RTE和Rex1超家族也普遍存在于鱼类基因组中,但是含量上低于Tc-Mariner、hAT、L1、L2和Gypsy超家族。一些转座子超家族在某些物种中存在特异性富集,比如大弹涂鱼中的Gypsy超家族,弗氏假鳃鳉中的L2和RTE超家族,墨西哥丽脂鲤中的Tc-Mariner超家族,斑马鱼中的hAT超家族,矛尾鱼中的CR1、L1、L2超家族,象鲨中的CR1和L2超家族。(2)使用皮尔森相关系数对不同分类层级转座子的含量与基因组大小进行相关性评估。在总体层面,鱼类基因组中的转座子含量与基因组大小呈显著正相关(Pearson相关系数r=0.47,p-value=0.002)。不同门类中,Class I转座子的含量与基因组大小呈正相关(Pearson相关系数r=0.39,p-value=0.013)。不同类型中,LTR的含量与鱼类基因组大小呈正相关的关系(Pearson相关系数r=0.43,p-value=0.006)。在超家族层面,Helitron、Maverick、Kolobok、CMC、P、DIRS、I、L1、L2和5S超家族的含量与鱼类基因组大小呈显著的正相关关系。(3)古代鱼类与之后分化出的鱼类在转座子的多样性上存在较大差异。在非真骨鱼类(七鳃鳗、象鲨、矛尾鱼、斑点雀鳝)和头索动物(文昌鱼)物种中,CR1超家族具有较高的丰度,而在真骨鱼类中CR1超家族丰度明显降低,取而代之的是Tc-Mariner和hAT超家族得到“扩增”。(4)鱼类转座子历史动态预测的结果显示,鱼类演化过程中都存在转座子“爆发”事件。鱼类中通常包含较少的古代转座子拷贝(K值大于25的转座子拷贝),但是大多古代鱼类较之后分化产生的鱼类保留了更多的古老的转座子拷贝。鱼类基因组中LINE在早期(K值趋近50)占主导地位的现象普遍存在,矛尾鱼和象鲨基因组中的LINE在整个演化历史中都占主导地位,所以LINE可能是鱼类早期出现的转座子并且它在鱼类转座子自身演化过程中可能扮演重要角色。3.转座子“爆发”与鱼类的物种分化(1)鱼类转座子历史动态分析结果显示转座子“爆发”事件在鱼类演化过程中普遍存在。针对这一现象并结合转座子与“宿主”基因组存在相互作用的假说,我们提出了转座子“爆发”与物种分化存在联系的假设,并以转座子“爆发”时间与相应共同祖先产生分化的时间是否一致来作为验证假设是否成立的标准。鳗鲡(欧洲鳗和日本鳗)、河鲀(红鳍东方鲀和菊黄东方鲀)、非洲丽鱼(布氏新亮丽鲷、伯氏妊丽鱼、奈里朴丽鱼、尼罗罗非鱼、斑马拟丽鱼)、弹涂鱼(许氏齿弹涂鱼和大鳍弹涂鱼,青弹涂鱼和大弹涂鱼)中都存在与其转座子“爆发”时间相对应的共同祖先物种分化时间。所以假设得以验证,即转座子“爆发”与物种分化存在关联性。(2)为了验证本研究中假设的普适性,灵长类、啮齿类、鸟类、两栖爬行类的基因组数据被加入进行进一步分析。结果显示,灵长类(人猿总科:人、黑猩猩、大猩猩、苏门达腊猩猩、白颊长臂猿;旧世界猴:猕猴、食蟹猴、狒狒、绿猴;原猴类:黑狐猴、指猴、小耳大婴猴)、树鼩、啮齿类(十三条纹地松鼠、非洲跳鼠、草原田鼠、裸鼹鼠、豚鼠、长尾绒鼠、八齿鼠、穴兔)、鸟类(波多黎各鹦鹉、绿头鸭、原鸽、白领姬鹟、勇地雀、虎皮鹦鹉、地山雀、绯红金刚鹦鹉、斑胸草雀、白喉带鹀、游隼、猎隼)、两栖爬行类(锦龟、绿海龟、刺鳖、中华鳖)中都存在与其转座子“爆发”时间相对应的共同祖先产生分化的时间。至此,我们在脊椎动物范围内找到了转座子“爆发”与物种分化存在联系的证据。综上所述,本研究采用逐步深入的方式对鱼类转座子进行研究。从对鱼类基因组中的转座子进行预测以构建基础数据,再到通过系统的比较学分析对鱼类基因组中的转座子进行概述并寻找规律性以得到有意义的差异信号和线索,针对得到的线索提出假设,最终找到了转座子活动与物种分化存在联系的证据。