基因组重复度量化及重复序列从头鉴定

来源 :浙江大学 | 被引量 : 0次 | 上传用户:hngscg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
重复序列在各类生物基因组中广泛分布,并且已被证明在基因组调控和演化过程中起着重要作用。快速、准确地鉴定基因组中的重复序列一直是生物信息学领域中一个具有挑战性的问题。为了弥补基于重复序列库方法的缺点,一些基于k-mer计数的工具根据k-mer频次计算重复度得分来从头检测基因组中的重复序列。尽管这些工具的时间、空间复杂度较低且识别表现良好,但它们在重复度计算,重复序列边界区分,对区段重复的检测敏感度等方面仍有待改善。此外,虽然这些工具提出了量化重复度的方法,但是其应用局限于重复序列的检测,而其中蕴含的定量特征并未得到深入研究。因此,本研究提出了一种基于加权k-mer覆盖度的新型计算方法,并将其用于基因组序列重复度量化分析,重复序列从头检测及比较基因组学分析。本研究的主要内容及结果如下:(1)基于加权k-mer覆盖度实现了更直观、更准确的序列重复度定量并构建了人类全基因组重复度图谱;(2)基于人类基因组重复度图谱发现序列重复度与基因组结构,转座元件演化,表观修饰信号及基因组可匹配度之间具有一定相关性;(3)基于重复度图谱开发了新的重复序列从头检测工具Rep Loc,采用新的重复单元定位和合并方法直接从重复度图谱中识别重复序列,提高了检测敏感度和特异度;(4)基于跨物种基因组重复度提出了一种新的计算物种进化距离的方法RDis,以大肠杆菌E.coli/Shigella株系为案例的分析表明RDis可以从一定程度上避免基因组重组对进化关系划分产生的影响;(5)基于基因组浏览器构建了基因组重复度图谱可视化分析平台(http://bis.zju.edu.cn/reploc/),通过该平台可快速获取特定序列或常见物种基因组的重复度图谱及进行跨物种基因组重复度比较分析。本研究从一个新的角度对基因组任意区域的重复程度进行了量化分析,并根据重复度图谱的特征开发了一种高效的重复序列检测工具。此外,本研究还从定量角度探究了序列重复度与基因组各种特征之间的关联并进行了跨物种的基因组重复度比较分析,为更深入的基因组学研究提供新的见解。
其他文献
铁(Fe)是生物体必需的微量营养元素,但过量时又会对细胞产生毒害。以往的研究对植物根系铁吸收和体内稳态的调控机制已经有了较为深入的了解,在作物铁营养的生物强化方面也取得了一定进展。但种子发育过程中铁的装载,以及其中的调控机制仍知之甚少,而这对深入挖掘有效的生物强化铁营养新途径非常关键。在对拟南芥转录因子突变体进行缺铁表型筛选时,本文发现一个属于拟南芥YABBY转录因子家族成员、调控胚珠外珠被极性生
“遗传补偿效应”(genetic compensation response,GCR)是首先在斑马鱼中发现的,一种新的遗传鲁棒性机制,是指当敲低某一个基因时有明显的表型,但此基因的遗传敲除突变体反而没有表型。在拟南芥、小鼠等其它模式生物中都观察到了这一现象。GCR虽然对于机体的存活具有重要意义,但是却阻碍了基因功能的研究。2019年,Stainier实验室和我们实验室同时发表各自研究结果,揭示GC
内质网与线粒体接触位点(ER-mitochondria contact sites,ERMCSs)是位于线粒体与内质网之间的动态结合区域,其在调控钙信号通路、脂质转运、线粒体动力学以及自噬小体的形成等生物学过程中都发挥着关键作用。尽管ERMCSs引起了人们的广泛关注,但是在高等动物中,其分子结构、具体功能、调控机制以及生理意义都还未被全面揭示。在多种人类神经退行性疾病中都存在ERMCSs的异常,例
哺乳动物卵泡生长过程中,卵母细胞转录翻译活跃,胞质中转录并积累大量的母源性m RNA和蛋白质,至卵母细胞生长完全,染色质凝集为染色体,卵母细胞转录沉默。卵母细胞减数分裂恢复、成熟及合子基因组激活前的胚胎发育都受胞质中的母源物质调控,但母源转录本的调节机制及功能研究一直存在很多空白。MPF和MAPK信号通路在调控减数分裂细胞周期进程中发挥重要作用,MPF由CDK1和cyclin B1两部分组成,MA
在中枢神经系统中(Central Nervous System,CNS),少突胶质细胞(Oligodendrocytes,OLs)包裹缠绕神经元的轴突形成髓鞘,促进动作电位的传导速率和保持轴突的完整性。这一过程对于维持正常大脑的功能是极为重要的。OLs和髓鞘的异常可造成多发性硬化症等脱髓鞘疾病和精神性疾病,如重度抑郁症和精神分裂症等。越来越多的证据表明轴突的髓鞘化过程依赖于轴突与OLs之间的相互作
表观基因组是一系列与DNA和蛋白有关的化学修饰,它们可在不改变DNA序列的情况下对基因表达进行调控,并在发育和疾病发生过程中发挥重要作用。当前的技术已经允许研究人员对实验样品进行常规的表观基因组表征,然而我们对表观遗传元件功能的理解到目前为止仍显不足。基于CRISPR基因编辑技术的筛选文库对阐明全基因组范围内的表观遗传元件的生物学功能具有重要意义,但是CRISPR筛选需要构建庞大的sgRNA文库,
北京鸭(Anas platyrhynchos)具有典型的鸟类核型,包括大染色体和小染色体。和鸡相比,北京鸭的性染色体具有较低的分化程度。为了阐明北京鸭和鸡之间、以及鸟类和哺乳动物之间染色体结构的演化,本研究利用三代测序和多种基因组数据,完成了一只雌性北京鸭的几乎完整的染色体组装。和之前利用二代Illumina测序技术组装的北京鸭基因组相比,新版本的基因组和注释质量均得到了大幅提升,并鉴定出两类在北
在神经回路的组装过程中,相同神经元的树突或轴突相互排斥产生“自我规避”的现象,而不同神经元的神经突可以彼此识别为“非我”,进而交叉在一起。该过程需要细胞表达大量的识别分子组合,赋予单个神经元独特的识别标签,从而使神经突能够精确地区分自我/非我成分。唐氏综合征细胞黏附分子(Dscam1)和成簇原钙黏蛋白(Pcdh)分别在果蝇和脊椎动物神经元的自我识别中扮演重要角色。黑腹果蝇Dscam1基因通过可变剪
在γ-变形杆菌,如大肠杆菌(Escherichia coli)中,Arc双组分系统在介导细菌从有氧到无氧代谢转变过程中起着重要作用,因此该系统通常对于此类细菌的厌氧生长至关重要,但对于有氧生长却可有可无。但在以呼吸多样性闻名于世的奥奈达希瓦氏菌(Shewanella oneidensis)中,Arc系统却发挥迥然不同的作用。Arc系统缺失不但影响细菌的有氧生长,而且还严重影响胞外被膜(cell e
泛素-蛋白酶体系统负责真核细胞中绝大多数蛋白的降解,参与调控几乎所有细胞功能。其中,26S蛋白酶体自身的调控机制及其亚细胞定位是经常被忽略的重要科学问题。通常人们认为蛋白酶体主要定位于细胞质与细胞核中,但近年来有证据表明细胞中的多种膜结构上也存在蛋白酶体。蛋白酶体膜定位的分子机制、生理意义和调控方式尚不明了。本论文就这一问题进行深入研究,通过免疫荧光、胶体金免疫电镜、细胞组分分离、点击化学、基因编