基于汉明距离的DNA短序列比对算法研究

被引量 : 0次 | 上传用户:gaccia_zhou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
具有高通量、低成本等特点的新一代DNA分子测序技术的产生与发展,极大地促进了国内外学者对生命科学的研究。大部分生命科学的研究的第一步往往就是把新一代测序数据比对到参考基因组上。由于新一代测序数据序列短、规模大等特点,使得传统的比对算法不再适用于该测序数据的比对。针对大规模的测序数据比对的问题,本文设计了一种短序列限定汉明距离的高效快速的比对算法。首先简单介绍了参考基因组和测序数据集合分别建立哈希表索引的过程。两者索引表的每项都对应一个数据块,当两个可比对数据块都非常大时,两者之间的比对次数非常多,甚至多达到几千亿次。为了避免两个可比对数据块之间的不必要的比对,减少它们之间的比对次数,本文提出了一种先对两个数据块排序,再对这两个数据块进行基于汉明距离比对的策略。根据此策略,本文设计并实现了基于汉明距离的DNA短序列比对算法。接着详细提出了两个大数据块之间限定汉明距离比对策略,通过在不同规模的输入数据下对几种基本排序算法进行实验分析,从中选出了适合于数据块排序的算法。然后采用了两种方式在限定汉明距离之内比对两个排好序的大数据块。第一种方式是从较小的数据块中的取出一项,把这项中用于排序的序列进行限定汉明距离的碱基置换生成组合。产生的有序的序列组合,在较大的数据块中依序进行二分查找比对。第二种方式是其中较小的数据块的每一项的用于排序的序列都进行限定汉明距离的碱基置换生成组合后,把产生的所有组合进行排序,排好序的组合组成的新的数据块与另一个较大的数据块进行线性向下查找比对。当两个数据块规模很大时,本文采用了第一种比对方式;当两个数据块的规模比较大时,本文采用了第二种比对方式。本文详细设计了整个算法和分析了这两种比对方式的时空复杂度。最后对算法的性能进行了评测。结果显示与其他算法相比,无论是在小规模还是大规模测序数据下,本算法在速度和准确度上都占有很大的优势。
其他文献
发展是当代世界的主题,也是当代中国的主题。发展实践的过程中需要发展的理论来指导。发展观是对发展的本质、内涵、目的和要求的总体的看法和基本观点。它既是对发展本质与
合同的法律适用在当今社会的作用已经是不可替代的。《涉外民事关系法律适用法》(以下简称《法律适用法》)于2010年颁布,并在2011年的4月开始在我国适用。我将对涉外合同的法律
1.栉孔扇贝染色体识别技术的建立本研究应用荧光原位杂交(Fluorescence in situ hybridization,FISH)技术,通过开发染色体特异分子标记,首次实现了栉孔扇贝所有染色体的识别,并在此
酶作为催化剂在有机合成中已经得到了较为广泛的研究,但酶催化聚合反应的研究相对较少。酚类化合物在过氧化物酶的催化下可以发生聚合反应,这是一种不使用有毒单体甲醛、且在温
随着社会的发展、科技的进步、高等教育的改革,高等教育大众化的不断推进,这既给高校的发展带来机遇,同时也带来挑战,如给高校学生的价值观念、思维方式、行为习惯产生了一定变更
本文研究了中药复方制剂—御脂冲剂治疗高脂血症(HLP)及对血清可溶性细胞间粘附分子-1(sICAM-1)和可溶性血管内皮细胞粘附分子-1(sVCAM-1)水平的影响。目的: 1.观察御脂冲剂对H
目的:研究通关胶囊抑制实验性前列腺增生症(BPH)前列腺组织的血管形成及作用机理。方法:采用SD大鼠去势后皮下注射丙酸睾丸酮法复制BPH模型,用免疫组化法结合图像分析系统分析实
近年来,我国慢性阻塞性肺疾病(COPD)的患病人数在逐年上升,其病死率较高,尤其是死亡率出现逐年上涨,该疾病也成为全世界前五的高发疾病,其中,慢性阻塞性肺疾病属于呼吸系统疾
日前,德国瓦克化学集团(Wacker Chemie AG)开发的用于验证可再生原料在有机硅生产中使用的工艺,通过了国际检测认证机构(德国技术监督协会)认证。自2018年年4月起,瓦克开始使用生