面向新一代测序技术的拼接算法研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:yykk110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在基因组的测序中,DNA序列的拼接是核心问题之一。在2005年之前,DNA测序主要采用Sanger测序方法,得到的DNA片段长度能达到1000bp,准确度率能达到99.999%。2005年,第二代高通量测序技术以其低廉的成本和巨大的通量大大推动了基因组测序的应用与发展。第二代高通量测序技术产生的DNA片段长度非常短(最短的只有35bp左右)且通量非常高(一次实验能产生几亿到几十亿条DNA序列)。在基因组的从头测序(de novosequencing)中,过去Sanger测序的拼接算法对第二代测序技术并不适用,需要开发新的拼接算法。而在基因组的再测序(re-sequenting)中,传统的DNA序列比对算法不能满足高通量和短序列的要求,需要开发新的DNA短序列比对算法。   本文首先系统研究了国际上最新的基于第二代测序技术的短序列拼接算法,并提出了基于同源基因组比对的整合方法。该方法将不同拼接方法所产生的contig利用一个同源的参考基因组整合在一起,构成更长的DNA序列,更好的重现被测基因组。我们使用整合算法对幽门螺旋杆菌测序短片段的不同拼接结果(SSAKE和Velvet的拼接结果)进行整合,结果表明,该算法有效地将contig的平均长度提高到2.9倍,最长的contig长度也提高到1.97倍,提高了拼接的准确性,最大程度的扩展了拼接结果。   本文提出了基于短片段间重叠信息的比对算法Umap和MAO。Umap算法引入核心片段逐步扩展延伸的基本思想,把短片段间的重叠信息加入到短片段比对算法中,为短片段在参考序列上的定位提供一个有力的支持信息。Umap算法能够快速定位在参考基因组上只比对到一个位置的短片段,并以这些短片段为种子,向两边延伸扩展并定位剩余短片段。然而Umap的弱点在于多重定位短片段的定位可靠性无法衡量。为解决这个问题,我们在Umap基础上提出了基于高通量测序短片段的比对算法MAO(Mapping Short Reads with Overlap),解决了多重定位短片段在参考基因组上的定位可靠性问题。MAO首先搜索所有可以在参考基因组上定位的短片段,然后依据短片段间的重叠信息,借鉴短片段拼接算法中扩展种子序列的贪婪算法的核心思想,将那些认为是错误定位的短片段排除,得到短片段在参考基因组上的准确定位信息。对于上述两个算法都使用模拟和真实的测序短片段进行验证,结果表明,Umap有效地将短片段的匹配比例从45%提高到70%,把错误匹配的短片段比例从12%降低剑0(与PASS比较)。MA0有效地识别出37%的唯一比对短片段是错误匹配,48%的多重比对(在参考序列上的比对位置不止一个)短片段是错误匹配。   最后我们分别使用系统发生分析方法和序列比对的方法分析了微生物群落组成情况。其中系统发生分析方法通过使用Blast进行比对和使用MEGA4.0建立系统发育树从而研究微生物群落的组成(分析对象为16S rRNA和26S rRNA)。基于序列比对的方法能直接提取微生物群落中的总DNA进行测序,跳过了偏向性较高的PCR扩增过程,样本制备简单且无偏向性,既可以发现高丰度的物种,也可以发现低丰度的物种,因此得到的数据在统计学上更接近菌群的真实物种构成。在序列比对的方法中,我们分别使用MAO和SOAP对一个模拟的微生物群落和其模拟的测序短片段集进行分析,比对的结果很好的印证了模拟微生物群落的构成情况。
其他文献
该文将根据区域模型思想,对大空间内小室火灾特性进行理论分析和全尺度实验研究,在认识小室火灾条件下溢出烟气在大空间流动规律的前提下,为小室火灾安全设计概念提出需注意
该文对高纯纳米AlO粉体的制备,离心成型高纯纳米AlO生物陶瓷的离心成型机理、工艺优化和物理性能进行了研究.在实验的基础上获得了制备浆料时粘结剂与分散剂的最佳含量以及浆
随着常规能源危机的日益临近以及能源需求的大幅度增长,油页岩以其巨大的储量越来越受到世界各国的重视。近些年来我国经济快速发展,能源供需矛盾日益突出,迫切需要加快油页岩资
该文采用了“稀燃、气口顺序喷射、全电控柴油/天然气双燃料发动机”改装方案对一台斯太尔增压中冷型柴油机进行了改装.在原机的基础上增加了一套天然气供给系统、比例电磁铁
该文通过查阅大量的有关文献,系统综述了发动机实时仿真系统的研究现状和发展趋势.设计了一套适合发动机电控系统初期开发的计算机实时仿真系统.该系统由模拟主机和模拟器组
磁共振成像(Magnetic Resonance Imaging,MRI)作为一个高端影像检查技术,自上世纪80年代投入临床使用以来,由于其分辨率高、无电离辐射等特点,越来越显示其广阔的发展前景。
生物油是一种含氧量高、热值低、组分极其复杂的初级液体燃料,其性质可通过在线或离线方法进行改善。生物焦是生物质热解过程中另一重要副产物,其具有一定的孔隙结构和较为复杂
NO是燃煤锅炉排放的污染物之一,它会严重影响人类健康,并能形成酸雨.因此,控制NO排放十分重要.分级燃烧包括空气分级和燃料分级,是一种经济而有效的低NO燃烧技术,但其在国内
本文主要从理论分析和试验验证两方面对深冷真空环境中的推力室降温规律进行深入研究。理论分析部分:首先根据上面级热真空试验的初步结果,结合单组元推力器的具体结构,建立推力
该文从真空冷冻干燥设备的结构分析入手,结合冷冻干燥工艺,分别对实验用冻干机控制系统的软硬件系统进行分析,详细的讨论了软件系统.该文选择计算机控制方式中的直接数字控制