论文部分内容阅读
在基因组的测序中,DNA序列的拼接是核心问题之一。在2005年之前,DNA测序主要采用Sanger测序方法,得到的DNA片段长度能达到1000bp,准确度率能达到99.999%。2005年,第二代高通量测序技术以其低廉的成本和巨大的通量大大推动了基因组测序的应用与发展。第二代高通量测序技术产生的DNA片段长度非常短(最短的只有35bp左右)且通量非常高(一次实验能产生几亿到几十亿条DNA序列)。在基因组的从头测序(de novosequencing)中,过去Sanger测序的拼接算法对第二代测序技术并不适用,需要开发新的拼接算法。而在基因组的再测序(re-sequenting)中,传统的DNA序列比对算法不能满足高通量和短序列的要求,需要开发新的DNA短序列比对算法。
本文首先系统研究了国际上最新的基于第二代测序技术的短序列拼接算法,并提出了基于同源基因组比对的整合方法。该方法将不同拼接方法所产生的contig利用一个同源的参考基因组整合在一起,构成更长的DNA序列,更好的重现被测基因组。我们使用整合算法对幽门螺旋杆菌测序短片段的不同拼接结果(SSAKE和Velvet的拼接结果)进行整合,结果表明,该算法有效地将contig的平均长度提高到2.9倍,最长的contig长度也提高到1.97倍,提高了拼接的准确性,最大程度的扩展了拼接结果。
本文提出了基于短片段间重叠信息的比对算法Umap和MAO。Umap算法引入核心片段逐步扩展延伸的基本思想,把短片段间的重叠信息加入到短片段比对算法中,为短片段在参考序列上的定位提供一个有力的支持信息。Umap算法能够快速定位在参考基因组上只比对到一个位置的短片段,并以这些短片段为种子,向两边延伸扩展并定位剩余短片段。然而Umap的弱点在于多重定位短片段的定位可靠性无法衡量。为解决这个问题,我们在Umap基础上提出了基于高通量测序短片段的比对算法MAO(Mapping Short Reads with Overlap),解决了多重定位短片段在参考基因组上的定位可靠性问题。MAO首先搜索所有可以在参考基因组上定位的短片段,然后依据短片段间的重叠信息,借鉴短片段拼接算法中扩展种子序列的贪婪算法的核心思想,将那些认为是错误定位的短片段排除,得到短片段在参考基因组上的准确定位信息。对于上述两个算法都使用模拟和真实的测序短片段进行验证,结果表明,Umap有效地将短片段的匹配比例从45%提高到70%,把错误匹配的短片段比例从12%降低剑0(与PASS比较)。MA0有效地识别出37%的唯一比对短片段是错误匹配,48%的多重比对(在参考序列上的比对位置不止一个)短片段是错误匹配。
最后我们分别使用系统发生分析方法和序列比对的方法分析了微生物群落组成情况。其中系统发生分析方法通过使用Blast进行比对和使用MEGA4.0建立系统发育树从而研究微生物群落的组成(分析对象为16S rRNA和26S rRNA)。基于序列比对的方法能直接提取微生物群落中的总DNA进行测序,跳过了偏向性较高的PCR扩增过程,样本制备简单且无偏向性,既可以发现高丰度的物种,也可以发现低丰度的物种,因此得到的数据在统计学上更接近菌群的真实物种构成。在序列比对的方法中,我们分别使用MAO和SOAP对一个模拟的微生物群落和其模拟的测序短片段集进行分析,比对的结果很好的印证了模拟微生物群落的构成情况。