论文部分内容阅读
具有高通量、低成本等特点的新一代DNA分子测序技术的产生与发展,极大地促进了国内外学者对生命科学的研究。大部分生命科学的研究的第一步往往就是把新一代测序数据比对到参考基因组上。由于新一代测序数据序列短、规模大等特点,使得传统的比对算法不再适用于该测序数据的比对。针对大规模的测序数据比对的问题,本文设计了一种短序列限定汉明距离的高效快速的比对算法。首先简单介绍了参考基因组和测序数据集合分别建立哈希表索引的过程。两者索引表的每项都对应一个数据块,当两个可比对数据块都非常大时,两者之间的比对次数非常多,甚至多达到几千亿次。为了避免两个可比对数据块之间的不必要的比对,减少它们之间的比对次数,本文提出了一种先对两个数据块排序,再对这两个数据块进行基于汉明距离比对的策略。根据此策略,本文设计并实现了基于汉明距离的DNA短序列比对算法。接着详细提出了两个大数据块之间限定汉明距离比对策略,通过在不同规模的输入数据下对几种基本排序算法进行实验分析,从中选出了适合于数据块排序的算法。然后采用了两种方式在限定汉明距离之内比对两个排好序的大数据块。第一种方式是从较小的数据块中的取出一项,把这项中用于排序的序列进行限定汉明距离的碱基置换生成组合。产生的有序的序列组合,在较大的数据块中依序进行二分查找比对。第二种方式是其中较小的数据块的每一项的用于排序的序列都进行限定汉明距离的碱基置换生成组合后,把产生的所有组合进行排序,排好序的组合组成的新的数据块与另一个较大的数据块进行线性向下查找比对。当两个数据块规模很大时,本文采用了第一种比对方式;当两个数据块的规模比较大时,本文采用了第二种比对方式。本文详细设计了整个算法和分析了这两种比对方式的时空复杂度。最后对算法的性能进行了评测。结果显示与其他算法相比,无论是在小规模还是大规模测序数据下,本算法在速度和准确度上都占有很大的优势。